一周爬虫集训任务四:实战大项目

一周爬虫集训任务四:实战大项目

1 任务

Task4(2天) 实战大项目
1. 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。
2. 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。

2 实战大项目

要求:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。

  1. 首先使用Selenium模拟登陆丁香园论坛。这里先模拟点击登陆按钮,然后模拟点击返回电脑登陆按钮,然后定位账号输入框和密码登录框,并输入相应的账户及密码。具体代码如下:
##登陆代码
def login_denglu(browser):
    try:
        #通过xpath定位到登录按钮,并点击
        browser.find_element_by_xpath('//*[@id="headerwarp"]/div/div[1]/div/a[1]').click()
        #点击返回电脑登录
        browser.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/a[2]').click()
        #找到账号的输入框
        elem = browser.find_element_by_name('username')
        #清空输入框
        elem.clear()
        #输入账号
        elem.send_keys("账号")
        #找到密码的输入框
        elem = browser.find_element_by_name('password')
        #清空输入框
        elem.clear()
        #s输入密码
        elem.send_keys("密码")

        print('开始登录:')
        #点击登录按钮
        browser.find_element_by_xpath('//*[@id="user"]/div[1]/div[3]/button').click()

    except TimeoutException:
        print("Time out")
    except NoSuchElementException:
        print("No Element")

注意: 此步骤操作多了会出现验证,验证方式有几种:按顺序点击图片中的汉字、滑动图片块等;本文先跳过该步骤。

  1. 登录成功后, 开始爬取数据,这里使用XPath提取丁香园论坛的回复内容。相应代码如下:
##开始爬取信息
def get_information(browser):
    print("登录成功")
    time.sleep(10)
    print("开始获取信息")
    #利用xpath获取丁香园数据
    data = requests.get(url).text#以文本形式打印网页源码
    s = etree.HTML(data)  # 解析HTML文档

    for i in range(1, 4):  # rang(1,28):1 2 3 4...27,一共27楼
        try:  # 帖子内容这里的第一个帖子的div有点不一样,程序中采用分支处理。
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))  # 格式化信息
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[1]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗:去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)
        except:
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[2]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗:去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)
  1. 完整代码如下:
## 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。
from selenium import webdriver
import time
from selenium.common.exceptions import TimeoutException, NoSuchElementException
from lxml import etree
import requests

#打开浏览器
browser = webdriver.Chrome()
#访问地址
url = "http://www.dxy.cn/bbs/thread/626626#626626"
browser.get(url)

##登陆代码
def login_denglu(browser):
    try:
        #通过xpath定位到登录按钮,并点击
        browser.find_element_by_xpath('//*[@id="headerwarp"]/div/div[1]/div/a[1]').click()
        #点击返回电脑登录
        browser.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/a[2]').click()
        #找到账号的输入框
        elem = browser.find_element_by_name('username')
        #清空输入框
        elem.clear()
        #输入账号
        elem.send_keys("账号")
        #找到密码的输入框
        elem = browser.find_element_by_name('password')
        #清空输入框
        elem.clear()
        #s输入密码
        elem.send_keys("密码")

        print('开始登录:')
        #点击登录按钮
        browser.find_element_by_xpath('//*[@id="user"]/div[1]/div[3]/button').click()

    except TimeoutException:
        print("Time out")
    except NoSuchElementException:
        print("No Element")

##开始爬取信息
def get_information(browser):
    print("登录成功")
    time.sleep(10)
    print("开始获取信息")
    #利用xpath获取丁香园数据
    data = requests.get(url).text#以文本形式打印网页源码
    s = etree.HTML(data)  # 解析HTML文档

    for i in range(1, 5):  # rang(1,28):1 2 3 4...27,一共27楼
        try:  # 帖子内容这里的第一个帖子的div有点不一样,程序中采用分支处理。
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))  # 格式化信息
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[1]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗:去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)
        except:
            name = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[1]/div[2]/a/text()'.format(i))
            info = s.xpath('//*[@id="post_{}"]/table/tbody/tr/td[2]/div[2]/div[2]/table/tbody/tr/td/text()'.format(i))
            info1 = info[0].replace(" ", "").replace("\n", "")  # 数据清洗:去除空格和换行符\n
            print(name[0])  # 打印第一个元素
            print(info1)

#主函数
def main():
    login_denglu(browser)  # 登录函数
    get_information(browser)  # 获取标题与链接
    time.sleep(1)  # 休眠

# 函数入口调用
if __name__ == '__main__':
    main()

    input("按任意键退出-> ")
    browser.quit()

运行结果如下:

开始登录:
登录成功
开始获取信息
楼医生
我遇到一个“怪”病人,向大家请教。她,42岁。反复惊吓后晕厥30余年。每次受响声惊吓后发生跌倒,短暂意识丧失。无逆行性遗忘,无抽搐,无口吐白沫,无大小便失禁。多次跌倒致外伤。婴儿时有惊厥史。入院查体无殊。ECG、24小时动态心电图无殊;头颅MRI示小软化灶;脑电图无殊。入院后有数次类似发作。请问该患者该做何诊断,还需做什么检查,治疗方案怎样? 
lion000
从发作的症状上比较符合血管迷走神经性晕厥,直立倾斜试验能协助诊断。在行直立倾斜实验前应该做常规的体格检查、ECG、UCG、holter和X-ray胸片除外器质性心脏病。
xghrh
同意lion000版主的观点:如果此患者随着年龄的增长,其发作频率逐渐减少且更加支持,不知此患者有无这一特点。
按任意键退出-> 

3 参考

  1. 学习selenium+IP相关知识
  2. 学习beautifulsoup+xpath
  3. 参考3
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值