用python爬取oracle大佬的文章(学习用)

自学了一些python知识,参考网上别人的例子,成功爬取了oracle大佬博客的文章(希望大佬不要打我,我爬取到本地是为了学习用)

 

#coding:utf-8
import requests
import re

url='https://www.xifenfei.com/page/%d'
pattern=re.compile(r'<h2 class="entry-title"><a href="(.*?)" title="(.*?)" rel="bookmark">(.*?)</a></h2>')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'}
cop = re.compile("[^\u4e00-\u9fa5^a-z^A-Z^0-9]")

def write2filehtml(title,url):
    title=cop.sub('', title)
    finename="%s.html" % title
    with open(finename,'a',encoding='utf-8') as fp:
        response = requests.get(url=url,headers = headers)
        response.encoding = 'utf-8'
        content = response.text
        content=content.replace('href="//www.xifenfei','href="http://www.xifenfei')
        content=content.replace('src="//www.xifenfei','src="http://www.xifenfei')
        fp.write(content+'\n')

def write2file(items):
    with open('./lhrbest_itpub_link_title1.txt','a',encoding='utf-8') as fp:
        for item in items:
            item=item[::-1]
            write2filehtml(str(item[0]),str(item[2]))

def loadHtml(page):
    if page >= 1:
        for p in range(1,page+1):
            url_itpub = url%(p)
            response = requests.get(url=url_itpub,headers = headers)
            response.encoding = 'utf-8'
            content = response.text
            #print(content)
            # Ctrl + Alt + V:提取变量
            items = pattern.findall(content)
            write2file(items)
        pass
    else:
        print('请输入数字!!!')
 

if __name__ == '__main__':
    try:
        page = int(input('请输入需要爬取多少页:'))
    except:
        print('请输入数字')
    else:
        loadHtml(page)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值