很零碎的知识点,有的是踩过的坑,不成系统,但是绝对很有用,知道的可以回顾下,不太了解的可以多学习下
1、Python连接MySQL加编码
记得加charset,没加的话部署Linux服务器运行可能有中文乱码,已踩坑
2、最好用utf8mb4
很多时候我会用sqlalchemy创建连接数据库引擎,charset用的utf8mb4,原因在于爬取的文本中有表情,utf8不行,同时,数据库、表,编码也都要保持一致
python交流学习扣扣群:250933691,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习python有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我
3、好用的网页解析库PyQuery
frompyqueryimportPyQueryaspy
觉得好用的原因:
1、语法类似JQuery,好记
2、可以增删改查html元素,然后下载网页,这点xpath就比较弱了,下面是我最近用到的一些方法,其他方法可以网上查查
# 爬虫下载网页
each_res = requests.get(url).content.decode("utf-8")
# 转为pyquery文档
doc =py(each_res)
# 支持Class选择器,remove用来删除元素
doc(".site-navbar ul")("li").remove()
# 支持ID选择器
doc("#search-form").remove()
# 获取属性href的值
doc(".pagemenu")("li:first-child")("a").attr["href"]
# 设置属性href的值
doc(".pagemenu")("li:first-child")("a").attr("href