Python
文章平均质量分 53
橙意满满的西瓜大侠
一个普通学生
展开
-
xpath解析实战——爬取《少有人走的路:心智成熟的旅程》
同理,content = tree1.xpath("/html/body/div[2]/div[4]/div//text()")得到的也是列表,所以在写入文件里要这样写。因为li.xpath("./a/text()")返回的是列表,即使只有一个元素,也要加上[0]才能取列表里的值。f.write(i.strip()) 或者写f.write(content[0].strip())1、为什么title=li.xpath("./a/text()")[0].strip()要加[0]?时,遇到了无法编码的字符。原创 2024-08-16 14:40:38 · 266 阅读 · 0 评论 -
python爬虫入门(六)之 xpath 解析
XPath(XML Path Language)是一种用于在 XML 文档中查找信息的语言。html是xml的一个子集(XML 允许用户创建自己的标签来描述数据。例如,<book><title><author>是 XML 标签,可以用于描述书籍信息)。Xpath可以用来遍历 XML 文档的节点、选择节点,或对节点进行条件筛选,实际上它就是靠节点之间的关系去查找内容。原创 2024-08-16 00:28:12 · 981 阅读 · 0 评论 -
bs4解析实战——爬取优美图库的图片
用于获取响应的文本内容,适用于 HTML、XML、JSON 等文本数据。:用于获取响应的原始二进制内容,适用于图片、音频、视频等二进制文件。是一个负索引,用于从序列(如列表、字符串)中从末尾开始访问元素。类型),通常在处理网页内容、API 返回的数据时使用。模块是 Python 的标准库之一,提供了。各种文件和目录操作、环境变量访问、路径操作。类型),这对于文件下载和保存是必需的。1、为什么在下载和保存图片时,使用。(图片的 URL)按斜杠。:获取列表中的最后一个元素。在 Python 中,-1。原创 2024-08-15 16:03:16 · 387 阅读 · 0 评论 -
Re解析实战——获取豆瓣电影TOP250
csvwriter.writerow():通过使用CSV writer对象csvwriter的writerow方法,将数据写入对象关联的文件中(注意:参数是一个可迭代对象)(比如:"name": "***", "year": "***", "score": "***", "num": "***")这个CSV writer对象允许你使用它的方法(比如“writerow()”)将列表或元组的数据写入CSV文件中。csv.writer(f)创建了一个CSV writer对象,它用于向CSV文件中写入数据。原创 2024-07-30 12:42:33 · 276 阅读 · 0 评论 -
python爬虫入门(五)之Re解析
Re解析”是指使用正则表达式(regular expression,简称regex)进行文本解析或匹配的过程。解析网页内容的三种方式:1、bs4解析(最简单)2、re解析(解析速度最快)3、xpath解析(语法规则最舒服)选择解析方法通常取决于要处理的文档类型和具体的任务需求。Beautiful Soup适合处理不规范的HTML和简单的数据提取;正则表达式适合对文本模式进行精确匹配和替换;而XPath则是处理复杂XML文档和需要精确节点定位的首选工具。原创 2024-07-29 00:54:59 · 858 阅读 · 0 评论 -
python爬虫入门(四)之Beautiful Soup库
1、Beautiful Soup库是用来做HTML解析的库Beautiful Soup把看起来复杂的HTML内容,解析成树状结构,让搜索和修改HTML结构变得更容易2、第三方库,先安装终端输入pip install bs4from bs4 import BeautifulSoup(引入)3、beautifulsoup和bs4是什么关系。原创 2024-07-06 11:18:29 · 325 阅读 · 0 评论 -
python爬虫入门(三)之HTML网页结构
:起始标签,表示开始(HTML文档的根)<body>:表示文档的主体内容<h1>...一级标题...</h1><p>...文本段落...<p>原创 2024-07-05 23:59:28 · 819 阅读 · 0 评论 -
python爬虫入门(二)之Requests库
1、requests库让我们可以通过python代码去构建和发送HTTP请求2、第三方库,要先安装python终端,输入pip install requestssuccessfully installed:安装成功requirement already satisfied: 说明已经安装过,无需再安装若没有pip(python包管理工具)则可以先去http://pip.pypa.io/en/stable/installation/学习下载安装3、原创 2024-07-05 17:19:57 · 269 阅读 · 0 评论 -
python爬虫入门(一)之HTTP请求和响应
http: Hypertext Transfer Protocol(超文本传输协议)客户端和服务器之间的请求-响应协议eg: 浏览器可看作一个服务端,在浏览器中输入网址,浏览器就会向运行该网站的服务器发送请求,然后等待服务器返回给浏览器响应。原创 2024-07-05 12:46:25 · 984 阅读 · 0 评论 -
python极速入门笔记(五)
【代码】python极速入门笔记(五)原创 2024-07-04 10:31:55 · 188 阅读 · 0 评论 -
python极速入门笔记(四)
【代码】python极速入门笔记(四)原创 2024-07-03 23:31:32 · 134 阅读 · 0 评论 -
python极速入门笔记(三)
再长按ctrl,点击函数名或模块名,可以查看它的解释。原创 2024-07-03 16:58:52 · 228 阅读 · 0 评论 -
python极速入门笔记(二)
【代码】python极速入门笔记(二)原创 2024-07-03 15:53:43 · 265 阅读 · 0 评论 -
Python极速入门笔记(一)
或者在Windows的cmd中输入python)所有输入指令,最终都不会被保存,所以只相当于“2、不需要print就可以看到输出结果。输入quit()或者按ctrl+d。(直接点击python的控制台。1、不需要建立任何新的文件。>>>a,即可输出a的内容。eg:可以用作快捷计算器。原创 2024-07-02 23:23:37 · 233 阅读 · 0 评论