python爬虫(二)

BeautifulSoup

beautifulsoup中文官方文档

博主曾经花时间将官方文档从头到尾看了一遍,结果是没几天就忘光光,之后幡然醒悟,官方文档是用来查的,不是用来记的,遇到问题查一下慢慢就有印象!

爬取丁香园论坛回复
from bs4 import BeautifulSoup
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}
url = 'http://www.dxy.cn/bbs/thread/626626#626626'
r = requests.get(url,headers=headers)
html = r.text
soup = BeautifulSoup(html, "html.parser")

for data in soup.find_all("tbody"):
    try:
        userid = data.find("div", class_="auth").get_text(strip=True)
        print(userid)
        content = data.find("td", class_="postbody").get_text(strip=True)
        print(content)
    except:
        pass
xpath爬取丁香园论坛回复

xpath 曾经读过一遍,但是由于很久没用xapth,忘了很多,只有经常用才能记的牢

import requests
from lxml import etree


url = 'http://www.dxy.cn/bbs/thread/626626'
r = requests.get(url)
html = r.text
tree = etree.HTML(html)
users = tree.xpath('//div[@class="auth"]/a/text()') #返回一个列表
content = tree.xpath('//td[@class="postbody"]')
results = {}
for i in range(len(users)):
    results[users[i]] = content[i].xpath('string()').strip()
for user in users:
    print(results[user])
    print("*"*80)sts[i].xpath('string()').strip()
print(results)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值