Python网络爬虫，在网站上扒数据

最新推荐文章于 2024-07-07 08:00:00 发布

小qiang哥

最新推荐文章于 2024-07-07 08:00:00 发布

阅读量1.3w

点赞数 13

分类专栏：课程文章标签： Python 网络爬虫

课程专栏收录该内容

2 篇文章 1 订阅

订阅专栏

Python做网络爬虫其实是很方便的一件事，下面先贴出一段代码，使用其中的网址和设置可以直接得到一些数据：

编程环境：Sublime Text

<span style="font-size:18px;"># 导入需要用到的包，记得先安装BeautifulSoup
from bs4 import BeautifulSoup	
import urllib2
# 你需要扒数据的网站网址，timeout是溢出时间，即在timeout时间之内无法得到需要的数据就退出，属于保护措施
pagesource = urllib2.urlopen("http://www.ly.com/scenery/",timeout=8)
# 读取网站的数据
sourceData = pagesource.read()
siteSoup = BeautifulSoup(sourceData,"html.parser")
# 数据所属的类
selectkeys = siteSoup.find_all("div",attrs={"class":"s_com_detail"})
selectkeyz = siteSoup.find_all("span",attrs={"class":"s_dis"})

# 输出格式，第一个表示同时输出多个数据，第二个表示只输出一组数据，其中某些语句是调整格式的
for plink in selectkeys:
	print "%s,%s,%s"% (plink.find_all("p")[0].find(text=True),plink.find_all("i")[0].find(text=True),plink.find_all("b")[0].find(text=True))
for blink in selectkeyz:
	print blink.find(text=True)</span>

如果想扒不同网站的数据，程序中需要修改的几处如下：