迁移公司旧门户网站新闻到新的门户网站

本文档记录了将公司2012年至2018年旧门户网站新闻迁移到新门户网站的过程。首先,爬取新闻列表并保存至本地,接着进行数据清洗与保存。再者,利用XPath解析新闻详情,并使用正则处理富文本内容,最终将处理后的数据保存到数据库的两张表中。
摘要由CSDN通过智能技术生成

年前接到的一个新需求,把公司旧门户网站的新闻迁移到新的门户网站上,我的公司的网址是  www.jylink.com

像这种好玩的事,怎么能少了我这种小机智,开始动手来做

我的目标是把从2012-2018年的公司的新闻存到数据库中.喏,就是这样的新闻,图片上有我们帅气的董事长

保存到如下两张数据表中:

先爬取每页的新闻列表保存到本地去

# 获取新闻列表并保存到本地
def getNewsList():
    # 读取配置文件
    cf = config_util.readConfig('URLConfig.ini')    
    # 读取 爬取新闻列表的新闻地址
    news_url = cf.get('url','jylink_news')
    # 读取存储分页列表的地址
    filePath = cf.get('file_location','news_list')
    # URL 参数
    data={"pg":1}
    r = requests.get(news_url,data)
    # 这里的 18 随着新闻的页数而改变,新闻的页数+1
    for i in range(1,18):
        data['pg']=i
        r = requests.get(news_url,data)
        file_name = filePath+"\\第"+str(i)+"页.html"
        target = codecs.open(file_name,'w','utf-8')
        content=r.text
        target.write(content)

然后对新闻列表页进行数据清洗和保存


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值