自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 爬虫一般步骤

实现爬虫的套路准备url准备start_urlurl地址规律不明显,总数不确定通过代码提取下一页的urlxpath提取寻找url地址,部分参数在当前的响应中(比如当前页码数和总的页码数在当前的响应中)准备url_list页码总数明确url地址规律明显发送请求,获取响应添加随机的User-Agent,反反爬虫添加随机的代理ip在对方判断出是爬...

2019-08-31 14:57:08 560

原创 爬虫(三)——数据提取(3)之XPath

数据提取(3)XPath的使用XPath和XLML类库lxml是一款高性能的python HTML/XML解释器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息。XPath(XML Path Language)定义:是一门在HTML/XML文档中查找信息的语言,可以用来在HTML/XML文档中对元素和属性进行遍历。学习文档:https://www.w3school.com...

2019-08-28 21:00:59 559

原创 爬虫(三)——数据提取(2)

数据提取(2)正则表达式定义:就是用事先定义好的一些特定字符、以及这些特定字符的组合,组成一个“规则字符串”,这个"规则字符串"用来表达对字符串的一种过滤逻辑。常用正则表达式的方法:re.compile(编译)pattern.match(从头找一个)pattern.search(找一个)pattern.findall(找所有)pattern.sub(替换)正则表达式中字符...

2019-08-28 18:52:56 126

原创 爬虫(三)——数据提取(1)

数据提取数据提取概念:从响应中获取我们想要的数据的过程数据分类非结构化的数据:html等处理方法:正则表达式、xpath结构化数据:json、xml等处理方法:转化为python数据类型数据提取之json由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json的URL,就会尽量使用这种URL。JSON的概念:是一种轻...

2019-08-27 21:33:59 812

原创 爬虫(二)

爬虫(二)Requests深入1.发送POST请求哪些地方需要发送POST请求:登陆注册 (POST比GET更安全)需要传输大文本内容的时候(POST请求对数据长度没有要求)用法:response = requests.post(“http://www.baidu.com/”,data = data,headers=headers)data的形式:字典...

2019-08-26 20:57:31 430

转载 为什么说扁平胜于嵌套

为什么说扁平胜于嵌套这句话出自《python之禅》转载文章https://blog.csdn.net/gzlaiyonghao/article/details/2151918

2019-08-21 22:34:57 759

原创 爬虫(一)

爬虫学习(一)一.爬虫的概念模拟客户端(浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。二.爬虫的流程url–>发送请求,获取响应–>提取数据–>入库发送请求,获取响应–>提取url三.ROBOTS协议网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。例如:https://www.taob...

2019-08-21 19:14:42 193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除