用python3.5抓取内涵段子并且保存到本地

 因为一些资料和代码是参考网上的。所以为转载

#coding=utf-8
import time
import re  
from bs4 import BeautifulSoup	#安装BeautifulSoup
from selenium import webdriver  #安装谷歌浏览器驱动 链接:http://pan.baidu.com/s/1i5Kgvjf 密码:3xhd 
path = "D:\chromedriver\chromedriver.exe"
driver = webdriver.Chrome(executable_path=path)
driver.get('https://neihanshequ.com/')
for i in range (100):
    driver.find_element_by_id("loadMore").click() #点击加载更多
    time.sleep(1)

html = driver.page_source   #获取网页文本
print(html)
def getText(html):
   # ------ 利用正则表达式匹配网页内容找到wenzi ------
     reg = r'<div class="upload-txt.*?">(.*?)</div>'

     pattern= re.compile(reg,re.S);
     result = re.findall(pattern, html)
     return result
pag = getText(html)

with open('E:\内涵段子\\201792.txt', 'w', encoding='utf-8') as f:
    for each in pag:
        if '<br />' in each:
            # 替换成换行符并输出
            new_each = re.sub(r'<br />', '\n', each)
            f.write(new_each)
            print(new_each)
            # 没有就照常输出
        else:
            f.write(str(each) + '\n')
print('All done')
#driver.quit()


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值