python xpath 中文乱码_耗时一周尝试踩坑,整理了一些Python实用知识点

很零碎的知识点,有的是踩过的坑,不成系统,但是绝对很有用,知道的可以回顾下,不太了解的可以多学习下

1、Python连接MySQL加编码

记得加charset,没加的话部署Linux服务器运行可能有中文乱码,已踩坑

4b899641fbd73e6aa0ca950945f4651e.png

2、最好用utf8mb4

很多时候我会用sqlalchemy创建连接数据库引擎,charset用的utf8mb4,原因在于爬取的文本中有表情,utf8不行,同时,数据库、表,编码也都要保持一致

52fdaf5477ac89a1422b41f80818ecf9.png

python交流学习扣扣群:250933691,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习python有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我

3、好用的网页解析库PyQuery

frompyqueryimportPyQueryaspy

觉得好用的原因:

1、语法类似JQuery,好记

2、可以增删改查html元素,然后下载网页,这点xpath就比较弱了,下面是我最近用到的一些方法,其他方法可以网上查查

# 爬虫下载网页

each_res = requests.get(url).content.decode("utf-8")

# 转为pyquery文档

doc =py(each_res)

# 支持Class选择器,remove用来删除元素

doc(".site-navbar ul")("li").remove()

# 支持ID选择器

doc("#search-form").remove()

# 获取属性href的值

doc(".pagemenu")("li:first-child")("a").attr["href"]

# 设置属性href的值

doc(".pagemenu")("li:first-child")("a").attr("href

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值