Python
学习笔记cmj
学习笔记
展开
-
python 初学网络爬虫(糗事百科段子)
#糗事百科的网络爬虫 ,爬出所有段子信息import requestsfrom lxml import htmldef reptile_q(url,node): page = requests.Session().get(url) tress = html.fromstring(page.text) contents = tress.xpath(node) ...原创 2018-04-20 11:01:22 · 131 阅读 · 0 评论 -
python unicode十六进制 \u27ue0 转中文
#网络爬虫的字符串为十六进制的编码 text#将text Unicode编码为中文eval1 = eval("u" + "\'" + text + "\'")原创 2018-09-11 17:10:39 · 860 阅读 · 0 评论 -
python之requests 爬虫遇到的时间坑
如图:浏览器显示的时间:train_date :Mon+Nov+05+2018+00:00:00+GMT+0800这里面的时间显示中存在加号 + 。注意:当你的cookie确定没 没问题时, 请求参数和浏览器 上面显示的也一模一样,可是请求就是不成功。 这是就要考虑请求参数的问题了,因为浏览器显示参数是已经经过编码后的,你可以查看鼠标选中 当前的 信息右击,选择 Edit...原创 2018-10-31 10:03:17 · 4617 阅读 · 0 评论 -
解决requests 编码问题 可以使编码统一
解决requests 编码问题打开 client.py 文件 找到下面的位置修改源码,并修改为utf-8。这里我已经修改了,这样requests的编码就统一了。解决设置cookie编码问题及其他关于编码的问题。for i, one_value in enumerate(values):if hasattr(one_value, 'encode'):values[i] = on...原创 2018-10-31 14:52:43 · 3980 阅读 · 0 评论 -
python 线程池 ThreadPoolExecutor简单案例
###导入from concurrent.futures import ThreadPoolExecutor as tpeimport time####初始化线程tpe = tpe(10)###打印指定信息# site : 打印的主题# masg : 打印的信息def print_custom_masg(masg, site="", pyn='nothing', o...原创 2018-12-24 20:41:42 · 713 阅读 · 0 评论 -
Python,将Unicode16进制编码转换为汉字方式和注意点
第一种:eval1 = eval("u" + "\'" + text + "\'")第二种b = bytes("abc", 'utf8')print(b.decode('utf8'))第三种 和第一种一样a = '\u5386\u9633\u9547'爬虫得到的如上字符串 若想输出时候返回中文字符解决方法如下:a = "u'"+a+"'"print(eval(a...原创 2018-10-14 22:26:21 · 5944 阅读 · 0 评论