1
/
2
基于
python
的网络爬虫设计
基于
Python
的网络爬虫
摘要
随着计算机技术的不断发展,
新的编程语言层出不穷,
Python
,
Html
正是其中的佼佼者。
相比较早期普及的高级语言(
Java,C
语言)等,
Python
有着更
加实用的模块和库,
虽然牺牲了底层性,
但却更加方便用于开发小型
项目。
此外,
Html
也已经被普遍用于网站前端,标记语言的特性结合
CSS
丰富了网页内容和形式,某种意义上也促进了更加人性化的电子
商务系统的发展。
本文的网络爬虫正式基于
Python
语言编写的,通过对
Html
抓
取加工将数据可视化,
以监测逐渐从线下转移到线上,
并随着电子商
务发展越发简单普遍难以追踪的非法野生动物贸易。
本文首先对计算器语言的发展,尤其是
Python
和
Html
的优
势、基础概念以及性能进行介绍。
最后着重介绍可以实现检测网络上非法野生动物贸易的爬虫的设
计和实现。
程序主要包括三个模块:
URL
解析,
Html
抓取,本地输出。
Python
的开发环境和工具分别是
OS X
和
PyChram CE
,主要调
用了
Python
中的
Urllib2
,
beautifulsoup
模块。
最终的程序可以实现对指定网站,
指定关键词抓取指定内容,
保