年前接到的一个新需求,把公司旧门户网站的新闻迁移到新的门户网站上,我的公司的网址是 www.jylink.com
像这种好玩的事,怎么能少了我这种小机智,开始动手来做
我的目标是把从2012-2018年的公司的新闻存到数据库中.喏,就是这样的新闻,图片上有我们帅气的董事长
保存到如下两张数据表中:
先爬取每页的新闻列表保存到本地去
# 获取新闻列表并保存到本地
def getNewsList():
# 读取配置文件
cf = config_util.readConfig('URLConfig.ini')
# 读取 爬取新闻列表的新闻地址
news_url = cf.get('url','jylink_news')
# 读取存储分页列表的地址
filePath = cf.get('file_location','news_list')
# URL 参数
data={"pg":1}
r = requests.get(news_url,data)
# 这里的 18 随着新闻的页数而改变,新闻的页数+1
for i in range(1,18):
data['pg']=i
r = requests.get(news_url,data)
file_name = filePath+"\\第"+str(i)+"页.html"
target = codecs.open(file_name,'w','utf-8')
content=r.text
target.write(content)
然后对新闻列表页进行数据清洗和保存