自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 项目进度记录

第七周爬虫进度记录前言一、爬虫的优化二、网址去重1.myspider.py(获取txt的网址)2.middlewares.py(进行每次请求的控制)3.pipelines.py(数据储存的控制)总结前言本周对于爬虫的健壮性和爬取的速度进行了优化,以及增加了爬虫的去重功能。一、爬虫的优化网页爬虫本来出于对下载的速度过快可能被网站发现而被封锁ip考虑,从而设置了下载延迟2s,但是发现不是所有网站都是这样的反爬机制,所以对部分爬虫不做这样的设置。同时发现部分的网页爬虫也同样需要登录才能够获取到全部内

2021-06-03 22:36:58 116

原创 项目进度记录

第六周爬虫进度记录前言一、登录二、爬虫编写1.item的定义2.middlewares.py(控制爬虫的登录和爬取)3.myspider.py总结前言本周进行微博网站的数据爬取,微博网站和知乎网站相似,都是要登录才能够获取到全部内容。所以我们同样采用scrapy+selenium的方法对微博网站进行数据爬取,首先进行登录,后对话题下的内容进行爬取。一、登录我们同样采用cookie登录的方法,避开验证码的登录,下面是获取cookie的代码:# 得到登录的cookiedef login_coo

2021-06-03 22:10:34 90

原创 项目进度记录

第五周爬虫进度记录前言一、登录1.获取cookie2.利用cookie登录二、爬虫编写1.items.py2.middlewares.py3.middlewares.py总结前言本周开始对于知乎网站进行网站的问题内容以及问题下面的回答进行爬取,知乎网站的爬取与其他的新闻网站并不太相同。首先体现在的是知乎网站需要登录后才能够爬取到所需要的内容,其次知乎的回答与头条新闻一样,需要爬取到所有的回答,所以我们爬取采用scrapy+selenium的方式。一、登录由于知乎的登录需要密码以及验证码,所以我

2021-06-01 22:35:45 174

原创 项目进度记录

第四周爬虫进度记录前言一、今日头条的爬取1.item.py的编写2.在setting.py文件下开启中间件3.编辑middlewares.py文件(下拉滚动条)4.编写myspider.py文件二、网易新闻的爬取1.item.py文件2.编写myspider.py文件三、爬虫储存文件的优化1.在setting文件里面设置2.编写pipelines.py文件总结文章目录前言一、今日头条的爬取1.item.py的编写2.在setting.py文件下开启中间件3.编辑middlewares.py文件(下拉滚动条

2021-05-31 22:51:17 152

原创 项目进度记录

项目进度记录进度记录项目进度记录本周工作进展一、网易新闻itemsspider二、央视新闻itemsspider本周工作进展在这周,我们对爬虫程序进行了优化,在爬虫的爬取二级网页时增加了停用词库,减少无关词汇,以减轻后续的数据分析的工作负担。以及完成了对于网易新闻,央视新闻的爬取,这周预计完成对于网页新闻的爬取。后续将要对数据存储在数据库中,完成数据的对接,以及论坛信息的爬取。一、网易新闻在爬取网易新闻时,由于网易新闻没有相应的搜索功能,所以,我们在bing搜索上引用网易新闻的来源,但是这样

2021-04-21 20:49:12 128 1

原创 项目进度记录

第四周爬虫记录前言一、scrapy爬虫框架基本结构与代码遇到的问题总结前言在这周我尝试用scrapy爬虫框架对百度新闻进行二级网页数据爬取,解决爬取中遇到的问题,并以此为模板,摸索网页新闻的一般通用性爬虫一、scrapy爬虫框架基本结构与代码1. 在items.py文件定义item的基本结构,用于储存爬取到的数据,其中detail储存爬取的二级网页的数据,具体结构如下:class SpiderBaiduItem(scrapy.Item): title = scrapy.Field()

2021-04-04 19:54:43 97

原创 项目进度记录

第三周爬虫进度记录前言一、百度新闻相关代码二.今日头条相关代码总结文章目录前言一、百度新闻相关代码二.今日头条相关代码总结前言 在项目中我所负责的部分是爬虫部分,在这一周我主要的工作是尝试简单的爬虫爬取网站数据,熟悉各个主流舆论网站的爬取过程,以便与后面项目更好的对接。一、百度新闻我们观察到百度新闻在网页上显示的页数是20页,即总网页数大概是200多个,且对于时间的观察得知百度新闻大概是几天更新一次,所以对百度新闻的爬取策略是先爬取下所有网页及其时间戳,待几天后更新数据。首先我们对百度新

2021-03-28 20:35:38 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除