网络爬虫加强版——爬取网页源代码不展示内容以及编码无规律内容

        网络爬虫想要爬取的内容越加精炼,格式越统一,那么要求所要被爬去网页编码格式更加一致,这样才不会中断爬虫或者减少爬取信息。魔高一尺,道高一丈,网络爬虫和反扒机制一直都是对抗提升中,为了减少花更多时间和精力在寻找网页编码规律上,我们舍弃计算量和精度来达到我们信息搜索的目的,毕竟电脑是不会感到疲惫的。

      以南开大学生科院师资力量为例,还是爬取符合关键字的导师网址。

一、爬取导师介绍网址

       一般我们通过网页源代码去发现导师网址在哪一个标签下,然后通过获取该标签下所有的href。但是本次我们发现在网页源代码中我们并不能发现其所属标签,鼠标右击所要获取信息的图标,出现检查选项,通过点击展开浏览我们发现所有导师的信息均在li标签下的a标签中,所以只要我们获取所有a标签下的网址,手动删除不符合项(查找,掐头去尾)就ok了。然而这项工作已经不能用request包去解决了,但我们可以使用selenium包去完成这项工作,可以参考我以前文章如何通过网络爬虫获得NCBI蛋白质序列 

网络爬虫进阶版:如何批量获得具有关键字的NCBI蛋白质序列

      代码如下:

# -*- coding:UTF-8 -*-  
python
import selenium
import time
import random
from bs4 import BeautifulSoup
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('https://sky.nankai.edu.cn/7798/list.htm')
browser.find_elements_by_css_selector('#search_teach > li:nth-child(1) > a:nth-child(1)')[0].click()
time.sleep(random.randint(1,10))
f = open('/home/lxh/Documents/爬虫/nkdx/nkdx_professor_website.txt' , 'a+')
m = browser.find_elements_by_tag_name('a')
for link in m:
  f.write(str(link.get_attribute('href')) + '\n')
  print(link.get_attribute('href'))
​
f.close()

         这里需要注意的是.get_attribute('href')是通过浏览器和selenium包获取的,数据类型为Nonetype,是不能直接输出到txt的,需要通过str()函数将其转化为字符串类型,最后记得手动删除网址不符合项并保存。

二、通过正常的request包来获取导师页面所有信息

import requests
from bs4 import BeautifulSoup
import re
f = open('/home/lxh/Documents/爬虫/nkdx/nkdx_professor_website.txt' , "r")
f3 = open("/home/lxh/Documents/爬虫/nkdx/nkdx_professor_willingx.txt" , "a+")
for x in f.readlines():
  tar = x.replace('\n','')
  req = requests.get(tar)
  html = req.content.decode('utf-8','ignore').encode('GBK','ignore')
  bf = BeautifulSoup(html,'lxml')   
  text1 = bf.find_all('div')
  text = ''
  for link in text1:
    text2 = link.text.replace('\n' , '').replace('\t' , '').replace('\r' , '')
    text += text2
  kwd = ['抗菌','抑菌','噬菌体','裂解酶','耐药菌','抗菌药物']
  for xx in kwd:
    if text.find(xx) != -1:
      print(tar)
      f3.write(tar + '\n')
​
f.close()
f3.close()

       本次和上一期研究生报考时利用爬虫筛选导师研究方向文章相比,我合并了所有div标签的内容为一个字符串。

三、总结

      Python中的常用的两个爬虫包,request获取的内容非常依赖href,而且获取的内容是静态展示在源代码中的;selenium获取内容对href依赖较弱,只需要输入初始网址,便可以模拟人去浏览网页,同时激活JavaScript程序,然后可以获取初始网址不能展示的一些内容,缺点是只能爬去初始网址的内容,无法爬取网址改变的网页内容,因此对于无法通过request爬去的内容,可以尝试两者功能进行互补,或者重复使用selenium包进行第二次网页操作。经常使用type()和len()函数来检验你的结果是否正确,编码不适合一次编程太长,使用简单数据验证后,在进行下一步操作。

网络爬虫加强版——爬取网页源代码不展示内容以及编码无规律内容

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值