自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 利用爬虫技术清理微博“僵尸粉”

最近朋友告诉我她的微博粉丝数涨了很多,好奇的我去翻看了下,看了下动态也没有发现她发了什么能能快速吸粉的内容呀。粉丝怎么一下涨那么多,我也是一直在玩微博的,但是确实很少涨粉,粉丝基本都是一些认识的朋友,除非是“僵尸粉”。微博里的僵尸粉超级多的,很多人花钱就可以买到“关注”,有名无实的微博粉丝,是由系统自动产生的恶意注册的用户,不过大家应该都不喜欢有很多僵尸粉吧,毕竟都希望粉丝是真实的。说的僵尸粉我就想到那些明星,动不动就是百万千万的粉丝,真的好奇喜欢他们的人到底有多少,又有多少是僵尸粉呢?关于微博的数据之前

2021-08-17 22:14:39 1179

原创 抖音用户评论和ID的采集方法

随着5G时代的普及,各大运营商的套餐纷纷推出,使得流量成本进一步降低。同时5G线路高宽带、低延迟的技术特性和手机普及,让视频用户访问量快速增加。由于大量的视频工具和拍摄APP的提供,让短视频的拍摄、制作包括发行都变得更加简单便捷,越来越多的普通人可以投入视频创作,创造了更丰富的互联网内容,视频作者从视频推广中能获取粉丝和推广收益。目前抖音就是目前最重要的短视频平台之一,要及时获取上面的用户评论和ID,需要结合爬虫代理实现采集方案,下面的代码就能快速采集相关信息:package htmlunit;i

2021-08-05 21:56:45 5203

原创 招聘信息如何采集才能快速找到心怡的工作

刚刚毕业的同学需要到前程无忧、拉勾网、boss直聘等注册账号,然后浏览企业招聘信息,通过筛选和分析之后,大量投放简历,才有可能提升成功率,找到心怡的工作。建议使用移动端进行沟通,有两个优势:第一,使用方便,很多门户网站和APP都支持邮箱、微信、QQ、手机号码等注册登录,直接移动办公,不用固定场所;第二,随时随地查看和沟通,利用碎片化时间,能过全面的了解招聘要求和企业特点,做出更好的选择另外可以用爬虫程序对重点的行业、地区的招聘信息进行采集和整理,可以快速找到心怡的工作并投放简历,下面提供采集招聘信息的

2021-07-30 21:37:11 187

原创 利用爬虫解决公众号阅读的一个小障碍

在这个各种短视频爆红的时代,很多人已经把微信公众号丢弃了,不过我还是比较喜欢看公众号的,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章。但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦。于是便想着能不能把某个公众号所有的文章都保存下来,这样就很方便自己阅读历史文章了。刚好自己又是做数据采集工作的,那这件事还不简单吗?今天就跟大家分享下通过使用 Python 脚本获取公众号所有历史文章数据,获取公众号号数据是有以下3个步骤:1 使用 F

2021-07-13 16:35:55 185

原创 无头浏览器Selenium的使用要点

1、无头浏览器(headless browser)是什么无头浏览器是指可以在图形界面情况下运行的,可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务,模拟真实的浏览器操作和各种任务,例如登录、js解析、ajax动态生成、获取cookie等。2、无头浏览器适合的场景无头浏览器的框架需要真实运行浏览器,因此系统开销大,采集运行速度慢,相对与一般的爬虫程序,其运行环境要求搭建的工具和库较多,因此如果目标网站反爬不是很难,可以直接通过简单的http请求进行采集,不适合使用无头浏览器方案。

2021-07-06 23:04:29 523

原创 意大利与比利时的决胜时刻

7-3凌晨,将迎来意大利VS比利时的决胜时刻,比利时目前积分世界排名第一,刚刚在1/8决赛一剑封喉淘汰了C罗领衔的上届冠军葡萄牙,后防稳健4场比赛只有1个失球。意大利目前目前积分世界排名第七,创下了各项赛事的12连胜队史纪录,同时连续不败场次创纪录的达到31场。下面通过采集资讯网站,将获取到的两队信息进行分析。1、历史交手成绩 意大利胜意大利完全碾压比利时,双方交锋22次,意大利赢了其中的14次,比利时只赢了4次。还记得上次欧洲杯的2:0吗?2、球队超级巨星 双方打平本来比利时两名重要球星阿扎尔、德

2021-07-02 16:14:50 182

原创 关于java爬虫和爬虫代理使用方式

关于java爬虫和爬虫代理使用方式现在大数据时代,爬虫工作者已经成为互联网数据公司的关键性职位,他们不但要精通数据抓取和分析,其次还要熟悉搜索引擎和相关检索算法,对各种算法都要有一定的了解。并做工作进程编排合理的布局。爬虫有很多的方式,但Java爬虫是开发中应用最多的一种网页获取技术,速度和性能一流,在功能支持方面显得较为底层。而jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取

2021-06-28 18:28:12 161

原创 Scrapy爬虫框架之Puppeteer渲染

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包,用来模拟 Chrome 浏览器的运行。为了爬取js渲染的html页面,我们需要用浏览器来解析js后生成html。在scrapy中可以利用pyppeteer来实现对应功能。我们需要新建项目中middlewares.py文件(./项目名/middlewares.py)import websocketsfrom scrapy.http import HtmlResponsefrom logging import

2020-06-12 14:44:32 723

原创 爬虫Scrapy框架制作爬虫

制作爬虫 (spiders/itcastSpider.py)爬虫功能要分两步:爬数据在当前目录下输入命令,将在mySpider/spider目录下创建一个名为itcast的爬虫,并指定爬取域的范围:scrapy genspider itcast “itcast.cn”打开 mySpider/spider目录里的 itcast.py,默认增加了下列代码:import scrapyclass ItcastSpider(scrapy.Spider):name = “itcast”allowed

2020-06-12 14:35:07 234

原创 海量数据采集一般有哪些反爬策略?

在海量数据采集中,很多人以为引入代理IP就行,其实不然。在大量高频的对目标网站进行请求,要面临的一个很大的问题就是如何突破目标网站的防爬机制,这直接影响到我们的爬取效率(头条系、阿里系、腾讯系无疑是防反爬技术的一梯队),而突破防爬机制引入代理IP池只是一种初级手段,必须配合我们的反爬策略:1、没有对无头浏览器(selenium webdriver)做复杂反爬的网站,直接用程序控制无头浏览器不断的...

2020-04-22 15:37:45 348

原创 在数据爬取中如何选择代理产品?

在数据爬取的过程中,不可或缺的需要引入爬虫代理产品,因此选择一款适合的代理产品无疑对我们的爬取效率会起到极大的提升,目前市面上出现了多款爬虫代理产品,其区别主要如下:1、API代理:传统API提取式代理,是通过URL定时获取代理IP信息,需验证IP的可用性、更换代理设置,同时需要设计多线程异步IO,实现代理IP并发处理,不仅繁琐,而且影响效率。2、本地转发代理:相当于爬虫代理的半成品,由于其技...

2020-04-22 15:04:25 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除