受好朋友的委托,帮忙爬取全国某天所有火车的运行时刻表。
在此之前没有用过爬虫,但是会用python,所以迅速学习了一下。
把自己的学习过程整理如下,爬虫小白可以通过下述内容快速入门。
任务描述:
爬取的站点:http://search.huochepiao.com/chaxun/resultc.asp?txtCheci=D2&cc.x=0&cc.y=0
希望能把当前运行的所有车次的时刻表,都导出到excel变成下面这样。
学习及爬取过程如下:
快速浏览了《Requests 快速上手》,链接如下:
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
然后可以继续快速浏览《python爬虫之PyQuery的基本使用》,链接如下:
https://www.cnblogs.com/lei0213/p/7676254.html
第一个链接的目的是为了学习把网页内容爬到本地,第二个链接的内容是学习如何解析爬到本地的网页,进而从爬到的众多信息里提取挖掘出我们需要的信息。
所以总结一下,简单的爬虫就分为两个部分,第一是爬取网页到本地,第二是解析网页。
有了前面的基础知识,可以使用下面的代码来完成上面的爬取任务,读懂下面代码的内容,自己动手实践一下,那么简单的爬虫就入门了。
具体代码如下:
#!/usr/bin/python3
# coding: utf-8
import requests
from pyquery import PyQuery as pq
i