大数据
文章平均质量分 78
雨霖铃儿
这个作者很懒,什么都没留下…
展开
-
【深度分析】广告也卖不动了,全球互联网巨头的广告费都在降价
全球数字广告现状,发展趋势及影响因素深度分析。原创 2024-07-23 16:09:24 · 784 阅读 · 0 评论 -
TikTok用户时长超YouTube位居全球第一【全球数字化报告(中):社交媒体】
一文快速了解全球社交媒体发展情况。原创 2024-05-23 11:10:21 · 1183 阅读 · 0 评论 -
【全球数字专题报告(上):互联网使用现状】这个国家网民只有1%
在数字时代的浪潮中,互联网已然成为全球发展不可或缺的媒介,社交媒体平台正成为全球信息传播和创作者表达的重要场所。各国互联网、自媒体平台及数字广告的发展呈现多样化趋势。那么当前,前嗅专题《全球数字专题报告》,将为您展现当下全球数字时代的现状与发展趋势。报告包含:《全球数字专题报告(上):互联网使用现状》《全球数字专题报告(中):社交媒体平台发展情况》《全球数字专题报告(下):数字广告变化趋势》本文是《全球数字专题报告(上):全球互联网使用现状》联合国世界人口数据显示,目前。原创 2024-04-18 14:58:01 · 537 阅读 · 0 评论 -
【从零开始学爬虫】采集全国各行业经销商网点数据
本视频主要介绍了如何用ForeSpider采集全国各行业经销商网点数据,字段:名称、地址、电话、代理品牌、简介。原创 2023-07-27 15:05:42 · 1409 阅读 · 0 评论 -
【从零开始学爬虫】采集全国各地历年房价数据
采集58同城全国各地历年房价数据原创 2023-07-14 17:12:36 · 1309 阅读 · 0 评论 -
房产|1月全国70城房价出炉!疫情放开后你关心的城市房价有何变化
2023年1月份,70个大中城市中新房销售价格环比上涨城市个数增加;一线城市新房销售价格环比同比转涨、二三线城市环比降势趋缓,二三线城市同比下降。原创 2023-02-17 18:18:45 · 753 阅读 · 1 评论 -
疫情时代的宠儿:抗生素行业,今后何去何从
随着抗生素药物的规范使用成为全球性的趋势,市场监管政策的不断加强和技术创新的持续升级正日益改变着抗生素用药结构和市场格局,未来全球抗生素市场的竞争走势将更加趋向于原料药行业与中间体行业的产业结构优化、综合质量标准的提升以及环保技术的创新和提高。由于中国逐渐步入深度老龄化社会,对于抗生素需求量逐渐变大,再加上国内经济的发展,人们健康意识的觉醒,去医院的次数也在逐渐增长,客观上促进抗生素需求量的不断增长。根据数据显示,2020年中国抗生素行业需求量为13.8万吨,同比上升5.34%。原创 2023-02-03 14:27:48 · 388 阅读 · 0 评论 -
数据报告 | 美国民众健康状况和医疗需求研究报告
一文带你快速了解美国民众健康状况和医疗需求原创 2022-12-30 14:32:52 · 1052 阅读 · 0 评论 -
【从零开始学爬虫】采集全国高校导师数据
采集字段:高校名、导师名、简介、手机号、邮箱原创 2022-12-28 15:49:01 · 647 阅读 · 0 评论 -
房产|1-11月份全国房地产开发投资下降9.8%
房地产投资增速一路下滑,“国房景气指数”难景气原创 2022-12-17 21:56:04 · 328 阅读 · 0 评论 -
【从零开始学爬虫】采集收视率排行数据
采集字段:标题、发布时间、排行内容原创 2022-12-15 23:06:05 · 607 阅读 · 0 评论 -
大数据揭秘丨疫情影响下亚马逊女性夹克的逆袭之旅
用数据讲故事丨采集海外电商数据,深度还原跨境贸易市场情况。原创 2022-09-27 10:49:57 · 844 阅读 · 0 评论 -
【中秋福利】大数据告诉你:今年中秋礼品这样选
硬核的数据采集与算法分析,列出了今年最佳中秋礼品清单原创 2022-09-06 19:26:48 · 943 阅读 · 0 评论 -
久等了~史上最全爬虫采集场景终于来了
常见的几种爬虫数据采集场景原创 2022-04-13 16:04:41 · 1139 阅读 · 0 评论 -
前嗅教你大数据:采集东方财富网数据
l 采集场景【场景描述】采集东方财富网行情中心沪深京A股数据。【使用工具】前嗅ForeSpider数据采集系统,免费下载:ForeSpider免费版本下载地址l采集网站【入口网址】http://quote.eastmoney.com/center/gridlist.html#hs_a_board【采集内容】采集行情中心沪深京A股中的所有数据。【采集效果】如下图所示:l采集思路l配置步骤1.新建采集任务选择【采集配置】,点击任务...原创 2022-01-26 11:21:25 · 3225 阅读 · 0 评论 -
前嗅教你大数据:批量采集/下载网页中的图片数据
分分钟采集/下载网页中的图片数据原创 2022-01-18 16:12:52 · 2256 阅读 · 0 评论 -
前嗅教你大数据:采集带有翻页结构的网页数据
数字翻页、下一页、瀑布流翻页数据采集原创 2022-01-14 16:32:52 · 1005 阅读 · 0 评论 -
前嗅教你大数据:采集孔夫子旧书网
本教程主要介绍了如何采集孔夫子旧书网数据。原创 2022-01-13 17:36:09 · 1860 阅读 · 0 评论 -
采集腾讯新闻数据
使用爬虫工具批量采集腾讯新闻数据。原创 2022-01-04 11:39:19 · 1085 阅读 · 0 评论 -
【从零开始学爬虫】采集天堂图片网图片数据
l采集网站【场景描述】采集天堂图片网上的所有的风景图片数据。【源网站介绍】天堂图片网是一个提供丰富图片设计素材为的网站,网站内提供了清晰的图片分类,范围涵盖人物、动物、植物、商务、生活、家居、体育、交通、广告等素材图片。【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载ForeSpider免费版本下载地址http://www.forenose.com/view/forespider/view/download.html【入口网址】https://www.ivs.原创 2021-09-23 15:16:34 · 364 阅读 · 0 评论 -
【从零开始学爬虫】采集易贝(ebay)商品信息
l采集网站【场景描述】采集易贝(ebay)中某一类别的所有商品信息。【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载:http://www.forenose.com/view/forespider/view/download.html【入口网址】https://cn.ebay.com/b/Mens-Clothing/1059/bn_696958【采集内容】采集易贝(ebay)中的所有男装商品信息,包括商品名称、商品价格、库存量、商家名称、商家评分、商家好评率.原创 2021-07-27 10:47:50 · 2567 阅读 · 1 评论 -
【从零开始学爬虫】采集事业单位最新招聘信息
l采集网站【场景描述】采集上海交通大学最新招聘信息。【爬虫下载】http://forenose.com/view/forespider/view/download.html【入口网址】https://postd.sjtu.edu.cn/bshzp/10.htm【采集内容】采集该网站上发布的招聘公告信息,采集字段为:招聘标题、发布时间、招聘正文。l思路分析配置思路概览:l配置步骤1.新建采集任务选择【采集配置】,点击任务列表右上...原创 2021-07-07 17:56:32 · 308 阅读 · 0 评论 -
【从零开始学爬虫】采集亚马逊商品信息
l采集网站【场景描述】采集亚马逊搜索关键词出来的商品信息。【入口网址】https://www.amazon.com/-/zh/ref=nav_logo【采集内容】采集亚马逊搜索关键词搜索出来的商品信息,包括商品名称、价格、型号、星级和商品链接。l思路分析l配置步骤一.新建采集任务选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。二.关键词配置及翻...原创 2021-06-30 17:53:50 · 1292 阅读 · 2 评论 -
爬虫教程:如何批量采集知乎
采集网站【场景描述】通过搜狗搜索的知乎搜索栏目,按关键词搜索采集知乎正文【入口网址】https://zhihu.sogou.com【采集内容】本次采集的数据为知乎文章的标题和内容l思路分析功能点总结:关键词配置链接、翻页、链接抽取、数据抽取配置思路l配置步骤1.新建采集任务选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可。由于本次采集是通过关键词采集相关内容,所以【采集...原创 2021-04-12 16:08:32 · 1704 阅读 · 0 评论 -
福利 | 这些网站有免费代理IP!
闲来无事,为大家整理了一些免费代理IP的网站,比较适用于对ip质量要求不高,时效要求不长的小伙伴,日常经常用的小伙伴赶紧收藏啦!http://www.66ip.cn/index.htmlhttps://seofangfa.com/proxy/https://ip.jiangxianli.com/http://www.xiladaili.com/gaoni/6/http://www.xsdaili.cn/dayProxy/ip/2459.htmlhttp://www.dailii.原创 2020-12-08 10:38:59 · 27285 阅读 · 4 评论 -
前嗅教你大数据:常见的网站反爬策略与解决方案
大家在采集数据的过程中经常会遇到网站反爬的情况,不同网站反爬策略也不尽相同。今天,前嗅为大家总结了我们平时经常碰到的几种反爬策略,以及解决方法。网站反爬,原理是服务器通过访问者请求中夹带的一些访问者的信息,来识别访问者,并对访问者进行限制。比如服务器通过请求识别到访问者IP,对同一个IP访问频率做出了限制,那么当同一个IP访问频率超过限制时,访问就会出现问题。前嗅ForeSpider数据采...原创 2020-11-27 11:37:01 · 549 阅读 · 0 评论 -
如何在ForeSpider爬虫软件中设置代理IP?
作者 | 前嗅 来源| 前嗅大数据(www.forenose.com)今天为大家介绍一下:如何在ForeSpider数据采集器中设置代理IP。前嗅ForeSpider数据采集引擎,一款通用的数据采集系统,还带有数据挖掘、清洗分类及筛选导出的功能,能够满足绝大多数客户的数据采集及数据挖掘需求。ForeSpider爬虫软件采集速度可高达8000万条/天,支持多线程并行采集。采集限制IP的网站时,为保证采集质量及速度需要设置代理IP。ForeSpider数据采集系统有成熟的代理IP接口,可...原创 2020-11-24 16:16:27 · 267 阅读 · 0 评论 -
了解爬虫,这一篇就够了!
爬虫基本原理爬虫的基本原理是基于网站网络协议,根据网址批量获取到网页上的信息操作过程。简单一点说就是用计算机程序来模拟人工点击网页获取数据的过程。本教程将通过网络协议介绍、http请求流程、网页中的请求与返回、爬虫工作过程来为大家详细介绍爬虫是如何展开工作的。 网络协议 我们经常会在URL的首部会看到http或者https,这个就是访问资源需要的协议类型,爬虫常用的是http和https协议。http(HyperText Transfer Protocol )超文本传输协议,是互联原创 2020-10-26 16:40:45 · 434 阅读 · 0 评论 -
前嗅ForeSpider数据采集教程:采集东方财富网链接列表
案例:采集【东方财富网】首页新闻列表中的新闻一.网站内容1.网站截图说明本教程以采集“东方财富网”首页新闻列表中的新闻(正文数据)为例,故链接入口应官方网址(http://www.eastmoney.com/),如下图。东方财富官网2.采集结果截图链接列表采集预览二.操作方法1.新建任务按图片数字所示,1-2...原创 2020-01-11 13:09:56 · 3080 阅读 · 0 评论 -
前嗅ForeSpider采集教程:采集安居客列表数据
通过【链接列表】采集网站中的【正文数据】案例:安居客二手房列表页链接,加翻页安居客http://www.ifeng.com一.网站内容1.网站截图说明本教程以采集“二手房”列表页链接内的正文数据为例,故链接入口应该为“二手房”板块的网址(https://tianjin.anjuke.com/sale/?from=navigation)Step1:点击官网,找到“...原创 2020-01-11 10:18:30 · 2964 阅读 · 0 评论 -
【疯狂的嗅星人】连载二:最新能量源大揭秘
*剧情回顾 上一集讲到:由于嗅星球上的源主机数据库被终极大反派入侵整个嗅星球面临着重大危机,或将被毁灭而作为嗅星球上的科技大佬嗅豆博士不得不通过量子传输通道将伙伴们穿梭到另一个星球 —地球来进行避难面对众多大反派的威胁嗅豆博士和他们的朋友们该如何面对?面对地球陌生的环境没有嗅能...原创 2020-01-07 10:12:38 · 309 阅读 · 0 评论 -
为什么汉语不能用来编程?
在2020年元旦之夜距离地球543万光年的嗅星球上一位神秘大反派把嗅星球源主机上的数据删库后跑路嗅豆博士作为嗅星球上的科技大佬不得不通过量子传输通道将族人传送到其他的星球避难此时前嗅研究院正在进行一项量子通讯协议测试嗅豆博士和他的宠物团子就这样被传送到了地球来到前嗅研究院作为唯一拥有量子密钥的嗅豆博士肩负着重返星系...原创 2020-01-03 10:07:23 · 1535 阅读 · 1 评论 -
“2020年,我30岁了”
人们很喜欢用10年来总结一段历程、一个时代。但往往10年太漫长,10年离我们很遥远。如果10年太长,不如用5年来见证成长的每一个阶段。——5岁的前嗅今天是2020年的第二天,同时也见证了第一批90后正式迈入30而立的年龄。这一刻也终于不用倒计时了。30岁,好像是一个很微妙的时间点。20岁的时候想着,25岁的我会在哪里?25岁的时候想...原创 2020-01-02 10:27:05 · 571 阅读 · 3 评论 -
关于前嗅Forespider爬虫的常见问题答疑
关于前嗅Forespider爬虫的常见问题答疑奋战在一线为客户答疑的狗蛋儿给小编提供了很多客户经常会问到的问题的素材,小编帮大家整理了一些,快来看看是不是都用的上吧! 一、采集预览没有链接或数据? (1)查看文档详情:①需要写脚本:检查文档详情。文档中HTML标签中没有所需的数据信息,是JavaScript脚本生成的。②被封ip:文档详情404原创 2018-01-09 12:33:38 · 4017 阅读 · 0 评论 -
前嗅可以采集公众号所有的历史消息啦!
前嗅可以采集公众号所有的历史消息啦!相信之前采集过公众号历史文章的人都知道,用搜狗微信搜索公众号进行数据采集很方便,但是这个方法也有一个比较大的缺点,那就是只能显示最近10条群发文章。所以,小编今天要教大家另一个方法,可以采集公众号的全部历史文章! 前嗅通过微信官方提供的转载文章接口,能够采集到全部的历史文章。首先,你需要拥有一个自己的微信公众号,登录微信公众平台,打开浏览原创 2018-01-09 13:00:29 · 5378 阅读 · 1 评论 -
ForeSpider数据采集软件之链接抽取
自从来到前嗅,小编从一个爬虫小白到现在能够熟练的采集各种网站各种数据,真的是有很大的成长。当然,成长过程中肯定少不了踩坑(很多网站都有防爬措施),为了让各位用户能够更熟练的使用爬虫软件,小编决定定期写一些配置爬虫的经验和小技巧,以及遇到坑的时候的解决方法。本次案例使用的是大众点评网,要抽取下面的翻页链接。 第一步先看每一页的链接地址有没有规律。 可以看到每一页的链原创 2018-01-09 16:13:01 · 3188 阅读 · 0 评论 -
你们对“爬虫”这个词好像有什么误会
大数据时代你不可不知的一个词语。。。潜入各个爬虫群内部的小编,今天给大家带来什么样的搞笑的事情了呢,客官您往下看。。。。。。爬虫是啥呢,小编为了“普及”知识特地去百度了一下爬虫,度娘是这么说的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟原创 2018-01-09 16:28:56 · 566 阅读 · 1 评论 -
科技网红词汇之“人工智能”,“云计算”,“大数据”
随着时间的流逝,时代的变迁,我们接触的高频词汇也已由博客变成了微博,在我们不禁感慨时光一逝永不回的同时,又会有新兴技术高效便捷的服务大众,更新换代速度之快让小编突然担心有一天会被某个机器人取代呀。最近浏览新闻时常会看见这样的字眼:人工智能,云计算,大数据等高端词汇,为了跟上时代的脚步,走在科技的前沿,最主要的是深入了解一下这些可能会替代小编的人工智能机器人,小编特意去学习了一下这些网红...原创 2018-05-03 13:39:52 · 3509 阅读 · 1 评论 -
ForeSpider教程之如何爬取位置不固定的图片
摘要:本文以某新闻网站为例,教大家如何爬取位置不固定的图片。众所周知,对于新闻网站来说,图片位置是无法固定的,所以想要爬取到这些位置不固定的图片,需要一定的技术手段。以某网站为例,任务入口地址为:http://www.chengdu.cn/一、对首页进行链接抽取。 抽取文章标题,使用地址过滤“包含”.shtml。抽取到结果如下:二、新建模板2,抽取图片链接及内容数据:示例地址如下:http://n...原创 2018-05-15 18:17:22 · 2366 阅读 · 0 评论 -
第二届世界智能大会,看大咖眼中的智能时代
本周周二,即5月15日,第二届世界智能大会天津正式召开,本届世界智能大会将以“智能时代:新进展、新趋势、新举措”为主题,坚持“高起点、入主流、国际化、有特色”目标,持续打造智能科技领域最有权威、最有品质、最有规格的全球盛会。作为智能领域全球首个大型高端交流平台,本次大会旨在打造世界级先进智能科技成果发布平台、创新合作平台、产业聚集平台和投融资对接平台,促进中国与世界智能领域交流,聚集全球智能科技...原创 2018-05-22 18:24:16 · 1142 阅读 · 1 评论