![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
天上一只狒狒
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习笔记(三、保存数据)
保存数据首先来了解一下xlwt的基本操作创建xls文件并写入数据:#简单创建excel操作,并写入数据workbook=xlwt.Workbook(encoding='utf-8')#创建workbook对象worksheet=workbook.add_sheet('sheet1')#创建工作表worksheet.write(0,0,'hello')#写入数据,行、列、参数workbook.save('student.xls')练习创建一个excel表格写入99乘法表workbook原创 2020-10-03 19:19:26 · 1382 阅读 · 0 评论 -
Python爬虫学习笔记(二、爬取网页源码和解析网页)
爬取网页(获取网页源码)定义askURL方法来获取指定网页源码信息,askURL中需要重新定义head头部信息,用来伪装浏览器信息,防止网站反爬程序识别报错418。如果没有设置头部信息,使用Python程序对网站进行爬取显示user-agent信息为:这样很容易被反爬系统识别,这个是访问的httpbin.org测试网站,试一下豆瓣网:报错418,被发现我们是爬虫。头部代理信息我们可以在打开网页的源代码中找到修改头部代理再来测试爬取豆瓣网源码#绕过反爬# url="http://httpb原创 2020-10-03 18:26:50 · 6064 阅读 · 1 评论 -
正则表达式笔记
正则表达式常用操作符Re库主要功能函数正则表达式:字符串模式(判断字符串是否符合一定的标准)实例1:import repat=re.compile("AA")#正则表达式,用来匹配其他字符串m=pat.search("CBA")#search字符串被校验的内容print("AA-CBA:",m)m=pat.search("ABCAA")print("AA-ABCAA",m)m=pat.search("AANCAADDCCAAA")print("AA-AANCAADDCCAAA"原创 2020-10-03 10:13:58 · 318 阅读 · 0 评论 -
Python爬虫学习笔记(一、准备工作)
基本流程准备工作通过浏览器查看分析网页,学习编程基础规范。获取数据通过HTTP库向目标站点发起请求,请求可以包含额外header等信息,如果服务器能正常响应,会得到一个Response,获取页面内容。解析内容得到的内容可能为HTML、json等格式,可以用页面解析库、正则表达式等进行解析。保存数据可以保存为文本,也可以保存到数据库。任务爬取豆瓣电影Top250的基本信息。https://movie.douban.com/top250每页25部电影信息,总共10页一、分析网站链原创 2020-09-30 10:17:30 · 335 阅读 · 0 评论