20171208【笔记】学习一个Python3爬虫程序

最新推荐文章于 2020-12-11 06:56:11 发布

Saphon

最新推荐文章于 2020-12-11 06:56:11 发布

阅读量266

点赞数

分类专栏：计算机技术文章标签：爬虫

本文链接：https://blog.csdn.net/Saphon/article/details/98355775

版权

1.获得当前时间字符串：
输入：
import datetime
datetime.datetime.today().strftime(’%Y-%m-%d %H:%M:%S’)
输出字符串：‘2017-12-08 19:55:59’

2.标识浏览器身份的User-Agent：
webheader = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36’}

3.bsObj = getObj(pageurl) 的说明：
# 引入Beautiful Soup包
from bs4 import BeautifulSoup

# 把刚刚保存在content中的文件放入Beautiful Soup中
soup = BeautifulSoup(content, ‘lxml’)

【关键】有关BeautifulSoup的网页分割可参考下面的简书，写得超棒：
http://www.jianshu.com/p/9c266216957b
【此处是精细活，也是机械活，重复劳动，细心即可】
【注意想好DataFrame的表现形式，写好爬数据的输出结构】

4.df = pd.DataFrame() 的说明：
DataFrame是pandas的一种框架格式，方便记录信息
可以df.to_html(‘地址’)来输出框架的html网页

Q: html中文打开乱码
A: 在顶部添加：

即可消灭乱码，正常查看中文

5.正则表达式讲解：
http://cuiqingcai.com/977.html

20171227
-1.
Q：如何检查网页元素
A：在Chrome的网页中，键盘按下 Option + Command + I 即可

0.
Q：如何使用 BeautifulSoup 的 find 函数
A： find的参数及意义：
find(name=None, attrs={}, recursive=True, text=None, **kwargs)
】】按照tag(标签)搜索：
1） find(tagname) # 直接搜索名为tagname的tag 如：find(‘head’)
2） find(list) # 搜索在list中的tag，如: find(［‘head’, ‘body’］)
3） find(dict) # 搜索在dict中的tag，如:find({‘head’:True, ‘body’:True})
4） find(re.compile(’’)) # 搜索符合正则的tag, 如:find(re

最低0.47元/天解锁文章

Saphon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
20171208【笔记】学习一个Python3爬虫程序

1.获得当前时间字符串：输入：import datetimedatetime.datetime.today().strftime(’%Y-%m-%d %H:%M:%S’)输出字符串：‘2017-12-08 19:55:59’2.标识浏览器身份的User-Agent：webheader = {‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac...
复制链接

扫一扫