数据爬取
poorlytechnology
好好学习
天天向上
展开
-
python+selenium实现微博自动登录+用户微博信息爬取
1主要内容目的:实现微博的自动登录,实现对某个用户所发微博的时间,客户端,文案,转发数,评论数以及点赞数的爬取。难点:如下图所示:这个微博时是用户转载的自己以前的博文,而且在对目标信息进行爬取时会出现两个不一样的信息,由于我最后会将这个信息形成列表进行提取,所以会出现时间,客户端,文案,转发数,评论数以及点赞数不匹配的情况,所以需要将爬取到的多余的信息删除。需要分辨出哪个是多余的信息,这里两个时间以及客户端的节点元素信息是一样的并且在同一个div下面,所以无法从HTML的角度着手;而另外的三个信息由原创 2020-11-14 12:07:43 · 2380 阅读 · 0 评论 -
基于python里selenium库的信息盒爬取
1.以百度百科为信息来源爬取信息盒百度百科爬取信息是根据输入name,然后点击进入词条按钮,实现对目标内容的爬取,所以可以将所要查找的内容name先写入一个文本文件,然后遍历文件,实现对每一个name的搜索。搜索到内容后,找到信息盒节点的元素,对信息盒内容进行爬取,最后将爬取的内容写入文本文件保存。如图便是一个信息盒的内容。我所做的就是爬取这个内容,然后将内容按顺序输出。1.1建立所要爬取的信息目录文本文件将自己所要搜索的东西先写入文本文件,然后实现遍历如上图所示,之所以竖着写是为了可以使用l原创 2020-11-09 12:36:00 · 367 阅读 · 1 评论 -
基于python中selenium库,实现百度账号的自动登陆
如何实现自动打开百度网页并登录账号首先使用chmore浏览器自动打开百度页面,然后寻找到登陆按键的节点元素,并实现点击。接着,找到用户名登陆的节点元素,实现扫码登陆到用户名登陆的切换。然后,找到用户名一栏的节点元素,自动输入用户名,找到密码一栏的节点元素,自动输入密码,找到登陆button的节点元素,自动按下按键。下面一布是针对需要进行短信验证的情况,此时会弹出短信验证窗口,找到发送短信的节点元素,并实现点击,手动填入接受到的验证码,并找到登陆button的节点元素,点击。成功登陆账号后,在搜索框输入指定原创 2020-11-08 12:02:17 · 962 阅读 · 0 评论