![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
学习笔记cmj
学习笔记
展开
-
python 初学网络爬虫(糗事百科段子)
#糗事百科的网络爬虫 ,爬出所有段子信息 import requests from lxml import html def reptile_q(url,node): page = requests.Session().get(url) tress = html.fromstring(page.text) contents = tress.xpath(node) ...原创 2018-04-20 11:01:22 · 135 阅读 · 0 评论 -
python unicode十六进制 \u27ue0 转中文
#网络爬虫的字符串为十六进制的编码 text #将text Unicode编码为中文 eval1 = eval("u" + "\'" + text + "\'")原创 2018-09-11 17:10:39 · 868 阅读 · 0 评论 -
python之requests 爬虫遇到的时间坑
如图:浏览器显示的时间:train_date :Mon+Nov+05+2018+00:00:00+GMT+0800 这里面的时间显示中存在加号 + 。注意:当你的cookie确定没 没问题时, 请求参数和浏览器 上面显示的也一模一样,可是请求就是不成功。 这是就要考虑请求参数的问题了,因为浏览器显示参数是已经经过编码后的,你可以查看 鼠标选中 当前的 信息右击,选择 Edit...原创 2018-10-31 10:03:17 · 4647 阅读 · 0 评论 -
解决requests 编码问题 可以使编码统一
解决requests 编码问题 打开 client.py 文件 找到下面的位置修改源码,并修改为utf-8。这里我已经修改了,这样requests的编码就统一了。解决设置cookie编码问题及其他关于编码的问题。 for i, one_value in enumerate(values): if hasattr(one_value, 'encode'): values[i] = on...原创 2018-10-31 14:52:43 · 3990 阅读 · 0 评论 -
python 线程池 ThreadPoolExecutor简单案例
###导入 from concurrent.futures import ThreadPoolExecutor as tpe import time ####初始化线程 tpe = tpe(10) ###打印指定信息 # site : 打印的主题 # masg : 打印的信息 def print_custom_masg(masg, site="", pyn='nothing', o...原创 2018-12-24 20:41:42 · 718 阅读 · 0 评论 -
Python,将Unicode16进制编码转换为汉字方式和注意点
第一种: eval1 = eval("u" + "\'" + text + "\'") 第二种 b = bytes("abc", 'utf8') print(b.decode('utf8')) 第三种 和第一种一样 a = '\u5386\u9633\u9547' 爬虫得到的如上字符串 若想输出时候返回中文字符解决方法如下: a = "u'"+a+"'" print(eval(a...原创 2018-10-14 22:26:21 · 6142 阅读 · 0 评论