Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文。
Python爬虫的抓取思路是:
(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接
(2)获取每一个链接的内容,并做整理合并到事前准备好的.txt 文本中,以便查看各新闻。
但是需要注意的是:由于今天的测试对象,网易新闻的格式不是非常统一,所有会有部分漏掉的情况,还能大家见谅。也希望有能力的朋友们帮着改进一下。
自动抓取163新闻的Python爬虫源码如下:
#coding:utf-8
import re, urllib
strTitle = ""
strTxtTmp = ""
strTxtOK = ""
f = open("163News.txt", "w+")
m = re.findall(r"news\.163\.com/\d.+?",urllib.urlopen("http://www.163.com").read(),re.M)
#www.iplaypy.com
for i in m:
testUrl =