网络爬虫
XZF1996
江西师范大学
展开
-
爬取猫眼电影排行
import jsonimport requestsfrom requests.exceptions import RequestExceptionimport reimport timedef get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0 (Macin...转载 2019-06-19 23:33:57 · 318 阅读 · 0 评论 -
文件处理
t 文本模式 (默认)。 x 写模式,新建一个文件,如果该文件已存在则会报错。 b 二进制模式。 + 打开一个文件进行更新(可读可写)。 U 通用换行模式(不推荐)。 r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本...转载 2019-06-20 22:08:14 · 87 阅读 · 0 评论 -
学习笔记
1.get请求参数在url里可以看到,最多1024字节。2.post看不到,数据通过表单输送,数据在请求体里。3.css选择器.intro 选择class=intro的所有节点 #firstname 选择id=firstname *选所以 4.urllibrequest error parse robotparser...转载 2019-06-17 18:19:34 · 124 阅读 · 0 评论 -
知乎页面爬取
import requestsfrom urllib.parse import urlencodefrom pyquery import PyQuery as pqfrom pymongo import MongoClientbase_url = 'https://m.weibo.cn/api/container/getIndex?'headers = { 'Host': ...转载 2019-06-21 23:08:09 · 243 阅读 · 0 评论