爬虫中的python使用技巧

最新推荐文章于 2024-08-21 16:53:21 发布

Clifnich

最新推荐文章于 2024-08-21 16:53:21 发布

阅读量614

点赞数

分类专栏： python 爬虫文章标签： python 爬虫测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clifnich/article/details/53977802

版权

python 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Python 真的好用！

测试

要多用 print() 函数来做测试，如果不清楚某个变量的类型，可以用 print(type(x)) 来先做一个类型输出，其中x就是你要看的变量。

比如说爬虫会用到美丽鸡汤 BeautifulSoup，一般使用方法会像这样：

soup = BeautifulSoup(value1, 'html.parser')

如果你要用 print(soup) 的话可能会报错（我的python2就报错了），然后可以用：

print(type(soup))

来输出它的类型；注意是 type() 而不是 typeof() 要和c语言区别开来。

soup.select() 返回一个list

爬虫在网页上抓取内容依赖dom的知识，然而你要挑一个标签出来就必须用到这个 select() 函数。例如：

alink = soup.select('a')

就选择了文件中所有的a标签，放入变量alink里面。可以选择的标签还有很多啊，比如 soup.select('h1') 就选择了所有的一级标题；soup.select('#id1') 选中所有id是id1的元素；soup.select('.link') 选中了所有类是link的元素。

这个alink是一个list，类似于数组的存在，所以如果你要看看它是什么，一般要采用遍历输出的方法：

for link in alink:
    print(link)

输出后你会发现结果还是html的一个完整标签，如果你要内容，那么输出的是这样：

for link in alink:
    print(link.text)

如果你要提取链接的话，这会像map这样的数据结构：

for link in alink:
    print(link['href'])

这就ok。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。