网络爬虫加强版——爬取网页源代码不展示内容以及编码无规律内容

最新推荐文章于 2024-05-15 05:05:27 发布

wxid_5ksj33htorzc22

最新推荐文章于 2024-05-15 05:05:27 发布

阅读量2.7k

点赞数

文章标签： python 网络爬虫 selenium

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzY2ODcxOA==&mid=2247483837&idx=1&sn=01e2e41c7e2c8bf4ee4cd5eaf19037b3&chksm=ceb9463cf9cecf2ade67c812cf45f2ca58559edf9ce6c4b41a15398e3ff890a450d2932712f1&token=401751726&lang=zh_CN#rd

版权

网络爬虫想要爬取的内容越加精炼，格式越统一，那么要求所要被爬去网页编码格式更加一致，这样才不会中断爬虫或者减少爬取信息。魔高一尺，道高一丈，网络爬虫和反扒机制一直都是对抗提升中，为了减少花更多时间和精力在寻找网页编码规律上，我们舍弃计算量和精度来达到我们信息搜索的目的，毕竟电脑是不会感到疲惫的。

以南开大学生科院师资力量为例，还是爬取符合关键字的导师网址。

一、爬取导师介绍网址

一般我们通过网页源代码去发现导师网址在哪一个标签下，然后通过获取该标签下所有的href。但是本次我们发现在网页源代码中我们并不能发现其所属标签，鼠标右击所要获取信息的图标，出现检查选项，通过点击展开浏览我们发现所有导师的信息均在li标签下的a标签中，所以只要我们获取所有a标签下的网址，手动删除不符合项（查找，掐头去尾）就ok了。然而这项工作已经不能用request包去解决了，但我们可以使用selenium包去完成这项工作，可以参考我以前文章如何通过网络爬虫获得NCBI蛋白质序列

网络爬虫进阶版：如何批量获得具有关键字的NCBI蛋白质序列

代码如下：

# -*- coding:UTF-8 -*-  
python
import selenium
import time
import random
from bs4 import BeautifulSoup
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('https://sky.nankai.edu.cn/7798/list.htm')
browser.find_elements_by_css_selector('#search_teach > li:nth-child(1) > a:nth-child(1)')[0].click()
time.sleep(random.randint(1,10))
f = open('/home/lxh/Documents/爬虫/nkdx/nkdx_professor_website.txt' , 'a+')
m = browser.find_elements_by_tag_name('a')
for link in m:
  f.write(str(link.get_attribute('href')) + '\n')
  print(link.get_attribute('href'))

f.close()

这里需要注意的是.get_attribute('href')是通过浏览器和selenium包获取的，数据类型为Nonetype，是不能直接输出到txt的，需要通过str()函数将其转化为字符串类型，最后记得手动删除网址不符合项并保存。

二、通过正常的request包来获取导师页面所有信息

import requests
from bs4 import BeautifulSoup
import re
f = open('/home/lxh/Documents/爬虫/nkdx/nkdx_professor_website.txt' , "r")
f3 = open("/home/lxh/Documents/爬虫/nkdx/nkdx_professor_willingx.txt" , "a+")
for x in f.readlines():
  tar = x.replace('\n','')
  req = requests.get(tar)
  html = req.content.decode('utf-8','ignore').encode('GBK','ignore')
  bf = BeautifulSoup(html,'lxml')   
  text1 = bf.find_all('div')
  text = ''
  for link in text1:
    text2 = link.text.replace('\n' , '').replace('\t' , '').replace('\r' , '')
    text += text2
  kwd = ['抗菌','抑菌','噬菌体','裂解酶','耐药菌','抗菌药物']
  for xx in kwd:
    if text.find(xx) != -1:
      print(tar)
      f3.write(tar + '\n')

f.close()
f3.close()

本次和上一期研究生报考时利用爬虫筛选导师研究方向文章相比，我合并了所有div标签的内容为一个字符串。

三、总结

Python中的常用的两个爬虫包，request获取的内容非常依赖href，而且获取的内容是静态展示在源代码中的；selenium获取内容对href依赖较弱，只需要输入初始网址，便可以模拟人去浏览网页，同时激活JavaScript程序，然后可以获取初始网址不能展示的一些内容，缺点是只能爬去初始网址的内容，无法爬取网址改变的网页内容，因此对于无法通过request爬去的内容，可以尝试两者功能进行互补，或者重复使用selenium包进行第二次网页操作。经常使用type()和len()函数来检验你的结果是否正确，编码不适合一次编程太长，使用简单数据验证后，在进行下一步操作。

网络爬虫加强版——爬取网页源代码不展示内容以及编码无规律内容

wxid_5ksj33htorzc22

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫加强版——爬取网页源代码不展示内容以及编码无规律内容

网络爬虫想要爬取的内容越加精炼，格式越统一，那么要求所要被爬去网页编码格式更加一致，这样才不会中断爬虫或者减少爬取信息。魔高一尺，道高一丈，网络爬虫和反扒机制一直都是对抗提升中，为了减少花更多时间和精力在寻找网页编码规律上，我们舍弃计算量和精度来达到我们信息搜索的目的，毕竟电脑是不会感到疲惫的。以南开大学生科院师资力量为例，还是爬取符合关键字的导师网址。一、爬取导师介绍网址一般我们通过网页源代码去发现导师网址在哪一个标签下，然后通过获取该标签下所有的hr...
复制链接

扫一扫