爬虫入门
文章平均质量分 76
狒狒fei狒
这个作者很懒,什么都没留下…
展开
-
python切片详解——[a::-1]、 [:b:-1]、 [::-1]的使用
目录切片作用:处理列表的部分元素用切片复制列表Python可切片对象的索引方式切片的参数step:正负数均可,其绝对值大小决定了切取数据时的‘‘步长”,而正负号决定了“切取方向”,正表示“从左往右”取值,负表示“从右往左”取值。当step省略时,默认为1,即从左往右以步长1取值。[a::-1]的使用[:b:-1]的使用[::-1] 的使用切片作用:处理列表的部分元素代码:list=[1,2,3,4,5,6,7,8,9]print(list...原创 2021-12-21 20:50:57 · 6453 阅读 · 1 评论 -
爬虫基础——Beautiful Soup的使用
目录Beautiful Soup查询方法find_all()find()Beautiful SoupBeautiful Soup 是ptthon的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。查询方法find_all()from bs4 import BeautifulSouphtml='''<div class="panel"><div class="panel-heading"<h4>Hello</...原创 2021-12-20 20:00:54 · 698 阅读 · 0 评论 -
爬虫基础——CSV数据存储
数据存储文件存储的形式多种多样,可以保存为txt纯文本形式,还可以保存为JSON、CSV格式等CSV文件存储CSV,全称为Comma-Separated Values,中文叫做逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。下面介绍如何读取和写入CSV文件看一个简单的例子:import csvwith open ("data.csv",'w') as csvfile: writer=csv.writer(csvfile) writer.writerow(['num',原创 2021-12-20 17:09:18 · 1469 阅读 · 0 评论 -
爬虫基础 解析库的使用
首先我们来介绍一下xpath,全称XML Path Language,即XML路径语言。它是一门再XML文档中查找信息的语言,也可以用来进行HTML文档的查找。网页是由一个一个节点组成的,我们除了可以用正则表达式爬取想要的内容,还可以通过解析页面来提取某个节点,从而获得节点的内容。Python有很多解析库,我们这里介绍两种,lxml和Beautiful Soup。原创 2021-12-16 15:57:32 · 188 阅读 · 0 评论 -
爬虫 基本库的使用
思考一个问题,当你用浏览器登录了一个网站时,你可以再次点击从而获取登录后自己的个人信息,在这个过程中实际上是发送了两个请求(实际上不止,还有许多看不到的请求),而计算机的cookies都对应着服务器的相同的会话,这样服务器就能知道你的登录状态,从而给你想要的东西。但如果我们用爬虫get或post请求时,实际上是两个完全不相关的会话,这个时候我们就需要设置cookies来维持相同的会话。有一个笨方法就是这两个请求都设置相同的cookies,这当然可以,但我们有更简单的方法——Session对象。原创 2021-12-15 20:01:36 · 922 阅读 · 0 评论 -
爬 虫 基 础
http基本原理:Uri:全称为“Uniform Resource Identifier”,即统一资源标识符。Url:全称为“Universal Resource Locator”,即统一资源定位符。通俗的来讲url就是uri,而uri包括了url和urn,目前我们常见的都是url。例如:“https://www.baidu.com/?tn=02003390_79_hao_pg”就是url。一个完整的url包括三部分:第一部分是协议(或称为服务方式);第二部分是存有该资源的主机IP原创 2021-12-14 19:16:52 · 1273 阅读 · 0 评论