python爬虫
文章平均质量分 76
爬虫学习
项目分享
猩猩文学
努力奋斗的大学生,学习python,c++,web开发,机器学习,深度学习,人工智能
(目前还是入门尚浅,虚心求教)
展开
-
Python爬虫——MongoDB入门到精通(二)
命令提示:按tabmongodb中文社区:https://docs.mongoing.com/mongo‐introduction非手动创建集合的方式手动创建集合 name 集合名字是必须要传的除此之外 还有一些可选参数:1、需要先切换到具体的数据库 use xxx2、db.user.insert({}) 直接往一个不存在的集合中插入数据 会默认创建 这个集合(非手动的)手动创建集合 集合名字必须要穿 可选参数能够限制创建的集合大小是一个12字节的十六进制4( 当前的时间戳) + 3 (机器ID)+原创 2022-06-09 14:29:59 · 442 阅读 · 0 评论 -
Python爬虫——MongoDB入门到精通(一)
数据库分为关系型和非关系型数据库爬虫里面用得比较多的菲关系型数据库:,是介于关系型和非关系型数据库之间的产品 关系型的 数据库–> 表–> 数据 字段 id name age 非关系型 数据库–> 集合–> 数据(文档)记录 采取的是来进行数据存储和编码运输的是的改进版本会把每个字段长度存储在字段的头部(仅作了解即可)MongoDB的中文帮助文档网址MongoDB下载地址推荐下载xxx.msi 因为一般会自动配置环境变量选择 MongoDB Community Server 然后在Package这原创 2022-06-09 13:52:36 · 808 阅读 · 0 评论 -
Python爬虫——多线程(一)
pycharm 腾讯课堂 浏览器n个cpu核心 可以同时执行多个任务线程 进程中的执行单位就是线程(进程中所包含的执行单位就是线程)一个进程可以包含多个线程在python中 实际上一次只能执行一个线程存在线程锁 用来解决资源竞争的问题主要用来解决效率问题I/O操作 网络IO 磁盘IO需要把多线程需要完成的工作写入到事件函数中可以同时进行多个线程的事件2.类创建多线程线程锁利用线程锁解决资源竞争问题得先找到可能会出现资源竞争问题得地方找到之后给这个可能得地方上把锁上锁要记得解锁不然原创 2022-06-05 15:18:10 · 779 阅读 · 0 评论 -
selenium知识点(二)
selenium知识点(二)文章目录selenium知识点(二)页面等待为什么需要页面等待如何处理页面等待的问题?代码案例实现操作多窗口页面等待为什么需要页面等待1、网页元素需要加载时间2、有时候一些操作只有在某种条件成熟的情况下才能做如何处理页面等待的问题?time.sleep(3)selenium有自己的等待方式提供了隐式等待和显示等待代码案例实现from selenium import webdriverimport timefrom selenium.webdriver.原创 2022-05-30 11:32:03 · 263 阅读 · 0 评论 -
selenium知识点案例
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2022-05-29 22:07:46 · 126 阅读 · 0 评论 -
selenium入门知识(一)
selenium入门知识(一)文章目录selenium入门知识(一)selenium基本使用方法驱动Phantomjs快速入门Chorme快速入门select选择下拉框索引下拉框扩展知识补充selenium操作总结selenium基本使用方法from selenium import webdriver# 实例化浏览器driver = webdriver.Chrome()# 发送请求driver.get('https://www.baidu.com')# 退出浏览器driver.q原创 2022-05-28 19:56:26 · 956 阅读 · 0 评论 -
Html文件读取与爬取(个人笔记篇)
Html文件读取与爬取(个人笔记篇)文章目录Html文件读取与爬取(个人笔记篇)html文件读取解析html数据存储爬取到的数据完整代码展示html文件读取1.通过open:打开文件地址,‘r’:读取文件,encoding:读取文件的格式2.再通过html.read()3.获取到htmldef get_html(self, url): html = open(url, 'r', encoding='utf-8') h = html.read() # print(h原创 2022-05-22 16:59:55 · 2322 阅读 · 0 评论 -
Python爬虫----bs4入门到精通(二)
Python爬虫----bs4入门到精通(二)文章目录Python爬虫----bs4入门到精通(二)一、修改文档树二、使用步骤提示:以下是本篇文章正文内容,下面案例可供参考一、修改文档树修改文档树● 修改tag的名称和属性● 修改string 属性赋值,就相当于用当前的内容替代了原来的内容● append() 像tag中添加内容,就好像Python的列表的 .append() 方法● decompose() 修改删除段落,对于一些没有必要的文章段落我们可以给他删除掉from bs原创 2022-05-18 16:36:00 · 1027 阅读 · 0 评论 -
Python爬虫----bs4入门到精通(一)
Python爬虫----bs4入门到精通(一)文章目录Python爬虫----bs4入门到精通(一)BeautifulSoup4介绍基本概念源码分析bs4快速入门一、安装二、导入模块三、创建soup对象bs4对象种类代码演示,详细注解遍历文档树contents,children,descendants代码演示,详细注解string ,strings,stripped_strings代码演示,详细注解parent 和 parents代码演示,详细注解find() 和 find_all()----[重点学习原创 2022-05-14 19:14:41 · 494 阅读 · 0 评论 -
Python----Xpath入门到精通与案例详解
Xpath入门到精通与案例详解文章目录Xpath入门到精通与案例详解Xpath介绍为什么学习XpathXpath原理Xpath工具使用Xpath语句介绍lxml的使用提示:以下是本篇文章正文内容,下面案例可供参考Xpath介绍为什么学习Xpath正则比较复杂,根据不同网页结构 灵活的选择解析方法Xpath原理X path根据路径找到数据的技术xml path languagehtml是xml的一个子集根据元素和属性进行导航Xpath工具使用Xpath语句介绍lxml的使用.原创 2022-05-12 22:05:52 · 666 阅读 · 0 评论 -
正则补充,csv读取和写入,案例讲解
@[TOC](正则补充,csv读取和写入,案例讲解)---# 正则表达式----正则补充```pythonimport re# s为待匹配的数据s = "apple price is $22, banana price is $33"# 需求--匹配到价格$22 $33# .+匹配出换行符以外任意数量字符# 一个括号就是一个分组result = re.search(r'.+(\$\d+).+(\$\d+)',s)print(result.group(0))print(resu原创 2022-05-10 20:18:49 · 541 阅读 · 0 评论 -
Python爬虫----cookie,main,接口问题补充
Python爬虫----cookie,main,接口问题补充原创 2022-05-07 14:39:14 · 525 阅读 · 0 评论 -
cookie--反反爬和模拟登陆简单案例
文章目录前言一、cookie案例二、使用步骤1.引入库2.读入数据总结前言提示:以下是本篇文章正文内容,下面案例可供参考一、cookie案例示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswar原创 2022-05-07 14:08:02 · 366 阅读 · 0 评论 -
正则表达式
文章目录正则表达式概述正则是什么?为什么要学习正则?正则的应用场景?一、正则入门1、普通字符2、元字符3、预定义匹配字符集4、重复匹配二、使用步骤1.引入库2.读入数据总结正则表达式概述正则是什么?.? 是由一些特殊的符号组合在一起的字符串*为什么要学习正则?去网页源码中解析出我们想要的数据正则的应用场景?爬虫提示:以下是本篇文章正文内容,下面案例可供参考一、正则入门1、普通字符字母,数字,汉字,下划线,以及没有特殊定义的符号,都是“普通字符”。正则表达式中的普通字符,在匹配的时原创 2022-05-04 21:03:35 · 111 阅读 · 0 评论 -
爬虫——requests详细介绍,案例演示
# requests模块---@[TOC](文章目录)---# requests介绍是第三方 需要安装的```pythonpip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple```但是需要注意的是 在pycharm里面 最好不要用虚拟环境(如果解释器的路径中包含单词venv 就证明可能用的是虚拟环境)> File-->settings-->Project:xxx-->project Interpret原创 2022-04-28 22:47:59 · 224 阅读 · 0 评论 -
网络请求模块补充
网络请求模块补充文章目录网络请求模块补充一、urllib.parse的补充二、百度贴吧案例1.百度 贴吧改写函数式2.百度 贴吧改写成面向对象式三、百度案例四、有道翻译提示:以下是本篇文章正文内容,下面案例可供参考一、urllib.parse的补充二、百度贴吧案例1.百度 贴吧改写函数式原创 2022-04-20 14:44:08 · 541 阅读 · 0 评论 -
爬虫----request简介(以及urllib模块和request模块保存图片区别)
这里写自定义目录标题欢迎使用Markdo4wn编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdo4wn编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用M原创 2022-04-01 16:46:28 · 5997 阅读 · 0 评论 -
爬虫----网络请求模块(urllib模块)
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结学习目标:学习内容:学习时间:学习产出:前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。原创 2022-04-01 16:43:06 · 308 阅读 · 0 评论 -
爬虫前导知识
文章目录爬虫简介一、通讯协议二、网络参考模型1.引入库2.读入数据三、请求和响应四、请求方式&url五、ua、referer和cookie六、状态码和抓包工具总结爬虫简介提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、通讯协议示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、网络参原创 2022-03-30 14:02:59 · 1139 阅读 · 0 评论