前期准备
·选取对象
·安装pycharm lxml
·安装xpath到浏览器
观察网站源码
·F12打开开发者工具调试页面 刷新网页 观察源码
·观察几页网址 比较得出规律
·用箭头对要求元素定位
xpath·ctrl+shift+x呼出xpath工具并复制地址
写代码(源码在这)
file:爬取当当网_图书畅销榜
结果:book_ranking_list
1.headers不可用:
将其中的Accept-Encoding这行删除
2.xpath在浏览器中都可以显示但代码运行出是空列表:
在源码中直接复制的xpath路径不可用 必须自己手动锁定元素xpath路径
3.书名名字太长有省略号导致作者无法对应
将书名和作者分别传入两个列表 通过while和if语句进行处理
4.下载的文件如图全是乱码
(将code全部改成gbk)->可看收藏文章
5.文件操作还需加强
心得
革命尚未成功 同志仍需努力