近期正在学习python ,结合自己过往的工作,所以闲来无事,试下爬17track 的轨迹。
爬取途径是:利用静态页面爬取,需要了解前端网页知识。
三方包:pyquery
话不多说,看代码吧:
#!/usr/bin/env python3
#coding=utf-8
from pyquery import PyQuery as pq
import pymysql
def get_time(d1):
l=[]
for data in d1('time'):
msg=d1(data).text()
#print(msg[0:11],len(msg))
l.append(msg[0:10])
return l
def get_message(d1):
s=[]
for data in d1('p'):
msg1=d1(data).text()
s.append(msg1)
return s
def main():
d = pq(filename="18.html")
d1 = d(".ori-block")#查找类是ori-block的html模块
d2 = d('.text-uppercase').text()获取类是text-uppercase的文本内容
print (type(d2))#测试返回的数据类型,为str