Python网络爬虫学习
文章平均质量分 55
记录Python爬虫的学习
u_hcy2000
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫学习(一)
一、总述 Urllib是Python用于操纵URL的一个模块#可以将网页中的内容全部读取出来,并将内容赋值给字符串变量dataimport urllib.requestfile=urllib.request.urlopen("http://www.baidu.com")data = file.read()print(data)使用re模块实现python正则表达式的内容 二、手...原创 2018-09-14 10:35:36 · 182 阅读 · 0 评论 -
Python网络爬虫学习(二)
一、框架初识 爬虫项目的半成品:常见爬虫功能的代码已经实现好了,留下一些接口,根据需求变动少量代码部分,并根据需求去调用这些接口,完成一个爬虫项目 我这里主要用的是开源的scrapy框架。二、Scrapy框架简介 Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取Web页面并提取出我们关注的结构化的数据 Scrapy...原创 2018-09-15 08:55:21 · 218 阅读 · 0 评论 -
Python网络爬虫之正则表达式(三)
(一)match()方法1、最常规的匹配、泛化匹配import recontent = 'Hello 123 4567 World_This is a Regex Demo'result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content)print(result)print(result.group())^$表示...原创 2018-10-26 21:35:06 · 201 阅读 · 0 评论