从零开始学抓取

最新推荐文章于 2024-08-14 17:18:35 发布

weixin_34384557

最新推荐文章于 2024-08-14 17:18:35 发布

阅读量57

点赞数

文章标签： python

原文链接：https://yq.aliyun.com/articles/692479

版权

从零开始学抓取

　　昨天突然遇到了一个需要统计某个网站所有页面单词数的任务，于是从零开始学起python搞抓取。

　　看了一下资料，需要用到下面几个库：

beautifulsoup4(分析html)
lxml(html praser)
requests(请求页面)
xlwt(导出excel表格)

下面是代码

import requests
from bs4 import BeautifulSoup
import lxml
import re

url = "http://www.baidu.com"
homepage = requests.get(url).text
#检查返回页面的内容
#print (homepage)
soup = BeautifulSoup(homepage,'lxml')

for linkpage in soup.find_all('a'):
    linkpage2 = linkpage.get('href')
    #检查有哪些连接
    #print(linkpage.get('href'))
    if linkpage2.startswith(url):
        #正则表达式删除末尾的锚位
        print(re.sub(r'\#.*',"",linkpage2))
    elif linkpage2.startswith("/"):
        print(url + re.sub(r'\#.*',"",linkpage2))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34384557

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从零开始学抓取

从零开始学抓取　　昨天突然遇到了一个需要统计某个网站所有页面单词数的任务，于是从零开始学起python搞抓取。　　看了一下资料，需要用到下面几个库：beautifulsoup4(分析html)lxml(html praser)requests(请求页面)xlwt(导出excel表格)下面是代码import requestsfrom ...
复制链接

扫一扫