某站点的网址分析与下载总结

最新推荐文章于 2024-08-20 23:27:00 发布

吱吱不倦小子

最新推荐文章于 2024-08-20 23:27:00 发布

阅读量409

点赞数

分类专栏：爬虫 python selenium xpath 文章标签： python selenium

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013109501/article/details/81391238

版权

python 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

一，站点难点分析

1，构造地址难度大，所有的地址通过ajax请求访问并通过多个js封装调用，参数通过sql字段拼接。

2，即使构造好地址，通过浏览器打开，全部返回首页。

二，站点的解决办法（selenium+webdriver+xpath+mysql）

综上分析站点的技术难点，通过以下几种方法解决

1，单纯的通过构造地址的方式请求网页的方法是不可行的，因此想到了python的selenium框架，Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。通过配置 selenium的环境，安装浏览器驱动，完成网页请求的环节。

2，xpath完成信息的提取操作，提取过程比较麻烦，提取的信息存在多样性，信息的编码问题也困扰了我好久。

3，mysql的存储问题还是比较简单的，主要就是如何存储list集合信息。

三，攻关总结

1，站点的分析

站点的分析是关键所在，对站点的仔细分析，可以让我们解决很多难题，比如爬取信息缺失的控制，效率的提高

2，特殊字符的去除方法,比如空格，换行共有2种方法处理两种思路

a=a1[1].strip().lstrip().rstrip(',')
b=a1[2].strip().lstrip().rstrip(',')

c=html.xpath('normalize-space(//td/strong[text()="文摘"]/../../td[2]/text())')

3,python中list集合转str

keywords=html.xpath('//*[@name="gjcBox"]/@value')
keyword="/".join(keywords)

4，xpath的提取（table表格定位到td，怎么td后的下一个td）

doi=html.xpath('normalize-space(//td/strong[text()="DOI"]/../../td[2]/a/text())')

5，注意python2和python3在编码上的处理

吱吱不倦小子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

吱吱不倦小子 CSDN认证博客专家 CSDN认证企业博客

码龄11年

60: 原创

33万+: 周排名

221万+: 总排名

7万+: 访问

: 等级

1169: 积分

11: 粉丝

23: 获赞

28: 评论

68: 收藏

私信

关注

分类专栏

hive 4篇
大数据 5篇
vue 16篇
json-server 2篇
Java 7篇
正则 1篇
MySQL 7篇
数据库 11篇
excel 2篇
操作
爬虫 8篇
python 15篇
selenium 1篇
xpath 1篇
scrapy 1篇
数据结构 7篇
NLP 1篇
自然语言处理 2篇

最新评论

（一）bert环境搭建
张简胡人: 我下载的bert-base，中文bert只能处理中文文档吧
RestTemplate通过对象传参，response的body为空讨论
汤同学丶: 你自己没加getter注解好嘛，一知半解的就别发出来了
（一）bert环境搭建
JJFLY66: 请问你怎么解决的u啊
（十四）使用 vue-cli 创建模板项目
不吃西红柿丶: 非常有用，感谢大佬的整理，期待后续大作
（十三）插件
不吃西红柿丶: 平凡文字中显示出不凡的文学功底，哈哈哈哈哈哈。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。