自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 老孙的爬虫(四)-------储存多层次的数据,使用递归不断请求,设置id与p_id确定数据的父子关系

测试网站:https://d.qianzhan.com/xdata/list/xfyyy0yyIxPyywyy2xDxfd.html数据的储存要求:储存的数据能看出父子关系思路:因为该网站数据是层层打开的,使用递归不断请求。需要额外储存一些数据来区分数据的层次以及关系。例子:假设a数据id为1,则在a数据的子数据的p_id就都用a的id  1.代码如下:from pymongo ...

2019-02-01 15:44:54 419

原创 老孙的爬虫(三)------使用selenium+chrome 使用关键字爬取js渲染的数据

目标:输入关键字爬取      http://www.freefullpdf.com/#gsc.tab=0       内pdf文件的网址(本网站为国外pdf文件网站,需要代理)方法一:在浏览器上输入这个url,然后在这个网址的搜索框中随意输入一个关键字会发现网址栏的url会变为           http://www.freefullpdf.com/#gsc.tab=0&gsc.q...

2018-12-07 18:20:32 1444

原创 老孙的爬虫(二·)--------通过储存在在MongoDB中的url来下载文件

#紧接着我在"老孙的爬虫一中储存的url进行下载"from pymongo import MongoClientimport requestsimport osimport datetimefrom multiprocessing import Poolfrom multiprocessing import Processimport timeconn=MongoCli...

2018-12-03 18:26:24 660

原创 老孙的爬虫(一)———爬取某网址内下载链接

目标:爬取url为"https://ebooks.adelaide.edu.au/meta/collections"的网站目录下的所有文件下载链接(每个标题点开后的界面最下方的下载链接)初始思路:首先爬取首个HTML下的内容,使用xpath过滤出接下来需要爬取的url并进行拼接,然后再次使用遍历爬取后存入MongoDB(这个思路是在没有彻底分析需要下载的数据时预想的,爬取过程繁琐,优化见下面)...

2018-12-03 18:01:07 2541

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除