Python爬虫 - 爬取百度html代码前200行

最新推荐文章于 2022-07-13 17:04:50 发布

weixin_30561177

最新推荐文章于 2022-07-13 17:04:50 发布

阅读量347

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/chenbin93/p/8988705.html

版权

Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理

源代码如下:

# 改进版, 增加了 .strip()方法的使用
# coding=utf-8
# urllib是用于获取网络资源的库，python3自带
# 此处的request是由Request类创建的一个实例对象
import urllib.request

# 调用request对象的urlopen()方法 , 传入url参数
file = urllib.request.urlopen("http://www.baidu.com")
# readlines()方法逐行读取整个文件到一个列表
# 注意: .readlines()方法会把字符串前后的空白字符都抓进来, 可用.strip()方法去掉
file_list = file.readlines()
# 用for循环和if条件语句来遍历读取列表的前200个元素
i = 0
for file_per in file_list:
    i += 1
    if i <= 200:
        print(file_per.strip())      # str.strip(): 去掉字符串前后的空白字符
    else:
        break

转载于:https://www.cnblogs.com/chenbin93/p/8988705.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30561177

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫 - 爬取百度html代码前200行

Python爬虫 - 爬取百度html代码前200行 - 改进版,增加了对字符串的.strip()处理源代码如下:# 改进版, 增加了 .strip()方法的使用# coding=utf-8# urllib是用于获取网络资源的库，python3自带# 此处的request是由Request类创建的一个实例对象import urllib.request# 调用...
复制链接

扫一扫