python爬虫
qq_42787271
这个作者很懒,什么都没留下…
展开
-
python爬虫系列一——urllib基本请求库
urllib定义: python内置的http请求库 urllib.request – 请求模块 urllib.error – 异常处理模块 urllib.parse – url解析模块urllib库的基本使用 常用的抓取网页的方法 post和get数据传送urllib的爬取网页import u...原创 2018-08-10 10:34:56 · 391 阅读 · 0 评论 -
python爬虫系列二:requests-最常用库_post(1)
requests-get爬取网页需要安装,pip install requestsimport requests#get方法,请求一个网页rp=requests.get("http://www.baidu.com")#设置网页编码rp.encoding="utf-8"#打印出文本字符串数据#print(rp.text)#打印字节流print(rp.content)req...原创 2018-08-10 11:50:28 · 360 阅读 · 1 评论 -
python爬虫系列二:requests-乱码处理(2)
在转码之前,我们首先了解一下常识:编码方式属性encoding:gbk,utf-8,寻找编码方式,找meta下的charset 2.转码函数:decode,encoderp.content本身就是字节流形式rp.text字符串形式人工转码decode,encode,encoding#人工转码#转码函数:decode(),encode()import requests...原创 2018-08-10 15:37:10 · 755 阅读 · 0 评论 -
python爬虫系列二:requests-设置headers(3)
1、为什么要设置headers? 在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据。 2、 headers在哪里找? 谷歌或者火狐浏览器,在网页面上...原创 2018-08-10 23:25:57 · 47697 阅读 · 3 评论 -
python爬虫系列三:html解析大法-bs4
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。 它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。 在爬虫开发中主要用的是Beautiful Soup的查找提取功能。 Beautiful Soup是第三方模块,需要额外下载 下载命令:pip install bs4 安装解析器:pip insta...原创 2018-08-12 22:58:33 · 20876 阅读 · 0 评论 -
python爬虫系列四:html解析大法-lxml-xpath
Xpath原本是在可扩展标记语言XML中进行数据查询的一种描述语言,可以很方便的在XML文档中查 询到具体的数据;后续再发展过程中,对于标记语言都有非常友好的支持,如超文本标记语言HTML。 正如在python中有一个内置的re模块用来支持正则表达式 语法一样,python中有一个第三方的lxml模块,可以方便 的支持Xpath的各种操作,可以友好的解析Xpath语法,使 ...原创 2018-08-13 00:20:04 · 2717 阅读 · 0 评论 -
python爬虫系列案例1-抓取猫眼电影top100(读取-解析-存储)
案例:抓取猫眼电影top100 要求:获取电影相关信息存储在mysql表单中知识点:requests请求读取正则表达式re解析网页pymysql存储网页内容# url:http://maoyan.com/board# 排名,海报,影名,主演,上映时间,评分# 存储,mysql# 模块:pymysql+requests+re(一个正则就可以把上述都可以整出来...原创 2018-08-16 13:47:45 · 1439 阅读 · 0 评论