代码:
import requests
from lxml import html
url= 'http://www.testmovie.com' #需要爬数据的网址
page = requests.Session().get(url)
tree = html.fromstring(page.text)
result = tree.xpath('//li[@class="test"]//span/text()') #获取需要的数据
print(result)
上面的代码最重要的一行就是最后一行代码。
‘//td[@class=”title”]//a/text()’
//td :这个相当于指定是大目录;
[@class=”title”]:这个相当于指定的小目录;
//a :这个相当于最小的目录;
/text():这个是提取其中的数据。
具体分析:
我们打开一个网站按F12,就可以查看网站的html代码,通过html代码来编写python的最后一行代码:
<li class='movie'>
<a onclick = 'moreurl(this,(from:'mv_a_1'))' href = 'http://www.testmovie.com/subject/2018020142910-05/4093/?from=showing' class = 'subj'> 魔兽 </a>
</li>
根据上面的html代码,python最后一行代码就应该是:
result = tree.xpath('//li[@class='movie']//a/text()')
下面开始简单介绍写爬虫的步骤。
爬虫前,我们首先简单明确两点:
1. 爬虫的网址;
2. 需要爬取的内容(数据)。
3. 找到合适的框架写python代码
4. 优化爬虫代码
实际项目中,爬虫面临很多问题,比如:
1. 页面规则不统一;
2. 爬下来的数据处理;
3. 反爬虫机制。