Python采集脚本:按照今日头条头条号作者采集文章脚本软件

大家好,我是淘小白~

之前有朋友让我整一个按照头条号来采集数据的采集规则,因为反爬的原因,使用火车头采集起来受限比较多,所以,就用python写了一个脚本软件出来。

今天来和大家简单说明一下:

1、脚本语言:python 

2、脚本逻辑,python驱动浏览器---- 提取作者列表url ---- 采集正文数据;

3、头条号的列表页限制很多,内容页采集基本没有限制;所以,大部分的时候是花费在列表请求上面。

4、配置文件config.ini 里面有两个参数,一个是头条作者的url,一个是翻页数量,翻页数量设置成0下拉到底,采集到无法下拉为止,设置成其他数量就是采集多少个下拉页的文章;

5、python用到的库主要是selenium 和 requests两个库,需要提前安装Python,下载谷歌浏览器对应驱动,放在Python安装目录下面。

6、谷歌浏览器驱动下载地址:

谷歌浏览器驱动下载地址:http://chromedriver.storage.googleapis.com/index.html

下载对应自己版本的或者相近版本的驱动,win系统不管是32位还是64位,都是下载win32.zip

7、脚本已做加密,并且需要授权电脑

今日头条按照作者批量采集文章Python脚本

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
今日头条爬虫技术说明 ========== 整体思路 -------- 1. 抓取今日头条app的数据包 2. 分析数据包,找出请求的数据(如文章列表,文章url等) 3. 根据文章url等信息,抓取文章内容 4. 若文章中包含视频,则取视频url,然后下载 具体实现 ------ ### 一、抓包 ### 1. 工具:`Fiddler`、 `android`手机、`google浏览器` 2. 步骤: (1)本示例采用[Fiddler](http://fiddler2.com/ "Fiddler")来抓包,安装到电脑,我的电脑是win10 (2)具体配置及使用请见[http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html](http://jingyan.baidu.com/article/03b2f78c7b6bb05ea237aed2.html "百度经验") (3)打开今日头条app,开始抓包,抓取到的包如下:![](http://i.imgur.com/fC3y96p.png) (4)经分析得知左侧的json文件及为文章列表,如图![](http://i.imgur.com/I2Z8Iph.png) 如右侧第一个content所指的json文件,文件内容为![](http://i.imgur.com/lwaDLHP.png)此时手机上的信息为 <img src = "http://i.imgur.com/LFSL1AA.png" width = "40%"> 可得上面的结论正确 ### 二、分析 ### 1. 分析所抓到的文章列表数据包:大致分为两类,一类是有视频的文章,一类则是没有视频的文章。 有视频的文章json内容里均有`video_id`这个key,如下图所示:![](http://i.imgur.com/T4hqaIc.png) 2. 没有视频的文章:json文件内容均包含`title`、 `abstract`、 `article_url`等信息,具体内容如下. -------- 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
Python 爬虫技术可以帮助我们快速地获取互联网上的信息,包括今日头条上的新闻信息。通过使用 Python 编程语言和相关的爬虫库,我们可以编写程序来模拟浏览器行为,访问今日头条网站,并从网页中提取所需的新闻数据。我们可以使用 Python 的 requests 库发送 HTTP 请求,获取网页的 HTML 内容,然后使用 BeautifulSoup 或者正则表达式等工具来解析 HTML,提取出新闻标题、摘要、发布时间等信息。值得注意的是,在实际应用中,我们需要遵守相关法律法规和道德规范,不得侵犯他人的合法权益。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Python采集头条新闻,轻松爬取!](https://blog.csdn.net/oGuJing123/article/details/130586029)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [JS逆向教程:Python采集今日头条视频](https://blog.csdn.net/Python_sn/article/details/109386073)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

淘小白_TXB2196

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值