网站采集程序编写技巧

采集是中国互联网高频操作,如果你不会编程,可以用"火车头"这样的软件,这个软件也是需要学习成本的,可能会有点复杂。程序员来做当然是自己编程,我一般用python写爬虫程序,偶尔用javascript,我以前见过一个码农用c++写,把网页clean/tidy之后强行用libxml构建document tree来解析,相当有想象力,估计是在某个搜索引擎工作。

  • 临时性采集某个页面 
    直接用firefox打开网页,注入jquery,编写各种css选择器,然后用document.write来把结果写到网页上,复制出来

  • 采集确定数据 比如采集淘宝商品页上的价格信息,这种单一数据,用正则表达式就行

  • 采集循环数据 
    这是指采集列表页,多条url,这种情况用BeautifulSoup 中文网页编码很杂,数据多半都不规范,经常会抛出异常,程序特别需要注意容错

  • 数据的存储 我先后用过文本文件,sqlite,mysql存放数据。我推荐使用直接mysql,这样后期迁移数据比较省事

  • 采集程序的组织 如果你只需要采集标题和正文,哪很简单,但是大部分采集都需要parse采集到的页面,转化成自己的数据库字段。但是由于网页结构很不规范,解析程序容易出现错误导致程序退出,所以采集程序最好分成2部分:

    1. 采集程序只干一件事情: 采集到 网页内容直接入库,数据表只包括2个字段:url,html
    2. 另外写一个解析程序: 从数据库中取出刚才存好的内容,解析提取你要的字段
参考
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值