python爬虫小案例

代码:

import requests
from lxml import html
url= 'http://www.testmovie.com' #需要爬数据的网址
page = requests.Session().get(url) 
tree = html.fromstring(page.text) 
result = tree.xpath('//li[@class="test"]//span/text()') #获取需要的数据
print(result)

上面的代码最重要的一行就是最后一行代码。
‘//td[@class=”title”]//a/text()’
//td :这个相当于指定是大目录;
[@class=”title”]:这个相当于指定的小目录;
//a :这个相当于最小的目录;
/text():这个是提取其中的数据。

具体分析:
我们打开一个网站按F12,就可以查看网站的html代码,通过html代码来编写python的最后一行代码:

<li class='movie'>
    <a onclick = 'moreurl(this,(from:'mv_a_1'))' href = 'http://www.testmovie.com/subject/2018020142910-05/4093/?from=showing' class = 'subj'> 魔兽 </a>
</li>

根据上面的html代码,python最后一行代码就应该是:

result = tree.xpath('//li[@class='movie']//a/text()')

下面开始简单介绍写爬虫的步骤。
爬虫前,我们首先简单明确两点:
1. 爬虫的网址;
2. 需要爬取的内容(数据)。
3. 找到合适的框架写python代码
4. 优化爬虫代码

实际项目中,爬虫面临很多问题,比如:
1. 页面规则不统一;
2. 爬下来的数据处理;
3. 反爬虫机制。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值