bug清理工-CSDN博客

原创利用爬虫技术清理微博“僵尸粉”

最近朋友告诉我她的微博粉丝数涨了很多，好奇的我去翻看了下，看了下动态也没有发现她发了什么能能快速吸粉的内容呀。粉丝怎么一下涨那么多，我也是一直在玩微博的，但是确实很少涨粉，粉丝基本都是一些认识的朋友，除非是“僵尸粉”。微博里的僵尸粉超级多的，很多人花钱就可以买到“关注”，有名无实的微博粉丝，是由系统自动产生的恶意注册的用户，不过大家应该都不喜欢有很多僵尸粉吧，毕竟都希望粉丝是真实的。说的僵尸粉我就想到那些明星，动不动就是百万千万的粉丝，真的好奇喜欢他们的人到底有多少，又有多少是僵尸粉呢？关于微博的数据之前

2021-08-17 22:14:39 1179

原创抖音用户评论和ID的采集方法

随着5G时代的普及，各大运营商的套餐纷纷推出，使得流量成本进一步降低。同时5G线路高宽带、低延迟的技术特性和手机普及，让视频用户访问量快速增加。由于大量的视频工具和拍摄APP的提供，让短视频的拍摄、制作包括发行都变得更加简单便捷，越来越多的普通人可以投入视频创作，创造了更丰富的互联网内容，视频作者从视频推广中能获取粉丝和推广收益。目前抖音就是目前最重要的短视频平台之一，要及时获取上面的用户评论和ID，需要结合爬虫代理实现采集方案，下面的代码就能快速采集相关信息：package htmlunit;i

2021-08-05 21:56:45 5203

原创招聘信息如何采集才能快速找到心怡的工作

刚刚毕业的同学需要到前程无忧、拉勾网、boss直聘等注册账号，然后浏览企业招聘信息，通过筛选和分析之后，大量投放简历，才有可能提升成功率，找到心怡的工作。建议使用移动端进行沟通，有两个优势：第一，使用方便，很多门户网站和APP都支持邮箱、微信、QQ、手机号码等注册登录，直接移动办公，不用固定场所；第二，随时随地查看和沟通，利用碎片化时间，能过全面的了解招聘要求和企业特点，做出更好的选择另外可以用爬虫程序对重点的行业、地区的招聘信息进行采集和整理，可以快速找到心怡的工作并投放简历，下面提供采集招聘信息的

2021-07-30 21:37:11 187

原创利用爬虫解决公众号阅读的一个小障碍

在这个各种短视频爆红的时代，很多人已经把微信公众号丢弃了，不过我还是比较喜欢看公众号的，有时遇到一个感兴趣的公众号时，都会感觉相逢恨晚，想一口气看完所有历史文章。但是微信的阅读体验挺不好的，看历史文章得一页页的往后翻，下一次再看时还得重复操作，很是麻烦。于是便想着能不能把某个公众号所有的文章都保存下来，这样就很方便自己阅读历史文章了。刚好自己又是做数据采集工作的，那这件事还不简单吗？今天就跟大家分享下通过使用 Python 脚本获取公众号所有历史文章数据，获取公众号号数据是有以下3个步骤：1 使用 F

2021-07-13 16:35:55 185

原创无头浏览器Selenium的使用要点

1、无头浏览器(headless browser)是什么无头浏览器是指可以在图形界面情况下运行的，可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务，模拟真实的浏览器操作和各种任务，例如登录、js解析、ajax动态生成、获取cookie等。2、无头浏览器适合的场景无头浏览器的框架需要真实运行浏览器，因此系统开销大，采集运行速度慢，相对与一般的爬虫程序，其运行环境要求搭建的工具和库较多，因此如果目标网站反爬不是很难，可以直接通过简单的http请求进行采集，不适合使用无头浏览器方案。

2021-07-06 23:04:29 523

原创意大利与比利时的决胜时刻

7-3凌晨，将迎来意大利VS比利时的决胜时刻，比利时目前积分世界排名第一，刚刚在1/8决赛一剑封喉淘汰了C罗领衔的上届冠军葡萄牙，后防稳健4场比赛只有1个失球。意大利目前目前积分世界排名第七，创下了各项赛事的12连胜队史纪录，同时连续不败场次创纪录的达到31场。下面通过采集资讯网站，将获取到的两队信息进行分析。1、历史交手成绩意大利胜意大利完全碾压比利时，双方交锋22次，意大利赢了其中的14次，比利时只赢了4次。还记得上次欧洲杯的2:0吗？2、球队超级巨星双方打平本来比利时两名重要球星阿扎尔、德

2021-07-02 16:14:50 182

原创关于java爬虫和爬虫代理使用方式

关于java爬虫和爬虫代理使用方式现在大数据时代，爬虫工作者已经成为互联网数据公司的关键性职位，他们不但要精通数据抓取和分析，其次还要熟悉搜索引擎和相关检索算法，对各种算法都要有一定的了解。并做工作进程编排合理的布局。爬虫有很多的方式，但Java爬虫是开发中应用最多的一种网页获取技术，速度和性能一流，在功能支持方面显得较为底层。而jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取

2021-06-28 18:28:12 161

原创 Scrapy爬虫框架之Puppeteer渲染

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。为了爬取js渲染的html页面，我们需要用浏览器来解析js后生成html。在scrapy中可以利用pyppeteer来实现对应功能。我们需要新建项目中middlewares.py文件(./项目名/middlewares.py)import websocketsfrom scrapy.http import HtmlResponsefrom logging import

2020-06-12 14:44:32 723

ssbt_2020的博客