- 博客(12)
- 资源 (3)
- 收藏
- 关注
原创 Linux 快速入门到实战【二】
Linux 快速入门到实战【二】一、Linux用户与权限1. 用户和权限的基本概念1.1、基本概念用户 是Linux系统工作中重要的一环, 用户管理包括 用户 与 组 管理在Linux系统中, 不论是由本级或是远程登录系统, 每个系统都必须拥有一个账号 , 并且对于不同的系统资源拥有不同的使用权限对 文件 / 目录 的权限包括:权限英文缩写数字序号读readr4写writew2执行executex1无权限-0在 L
2021-07-24 09:37:16 482 1
原创 Linux 快速入门到实战【一】
一、操作系统概述1. 计算机原理 现代计算机大部分都是基于冯.诺依曼结构,该结构的核心思想是将程序和数据都存放在计算机中,按存储器的存储程序首地址执行程序的第一条指令,然后进行数据的处理计算。 计算机应包括运算器、控制器、储存器、输入和输出设备五大基本部件。 计算机内部采用二进制来表示指令和数据,将编写好的程序送入储存器中,然后启动计算机工作,勿需操作人员干预,能自动逐条取出指令和执行指令。 计算机是由软件和硬件组成。硬件主要由CPU、存储设备、输入输出设备组成。软件包括操作系统
2021-07-24 00:27:18 790
原创 爬虫-day08
文章目录上篇1. scrapy 运行日志和常见配置项[了解]2. 中国图书网案例[重点]下篇1. 八爪鱼采集器使用[了解]1.1 使用模板采集数据1.2 自定义数据采集普通翻页下拉翻页点击更多翻页1.3 八爪鱼高级使用上篇1. scrapy 运行日志和常见配置项[了解]常见配置项:ROBOTSTXT_OBEY:是否遵守robots协议,默认是遵守USER_AGENT :设置请求头中的 User-AgentITEM_PIPELINES :配置数据管道类,权重越小越优先执行DOWNLOADER_
2021-07-13 20:07:27 122
原创 爬虫-day07
文章目录上篇1. scrapy 模拟登录[重点]2. scrapy 数据管道[重点]3. crawlspider爬虫下篇1. crawlspider爬虫[重点]2. scrapy 中间件3. 示例:随机设置请求头的User-Agent(重点)4. 示例:设置请求使用代理 IP[重点]5. 示例:腾讯招聘信息抓取[重点]上篇1. scrapy 模拟登录[重点]scrapy 请求直接携带 cookie:爬虫的父类中有一个 start_requests 方法,该方法使用起始 url 地址构造请求对象给引
2021-07-13 20:05:21 59
原创 爬虫-day06
文章目录上篇1. scrapy 框架简介2. scrapy 工作流程[重点]3. scrapy 基本使用[重点]下篇1. scrapy 基本使用[重点]2. scrapy 数据建模[重点]3. scrapy 提取 url 构造新的请求对象[重点]4. scrapy.Request 类 meta 参数的使用[重点]5. 补充:scrapy 的配置项上篇1. scrapy 框架简介Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。同步和异步:
2021-07-13 20:01:05 59
原创 爬虫-day05
文章目录上篇1. selenium其他使用(应用)2. 反爬虫的基本概念(了解)下篇1. 常见反爬和反反爬的方式2. 打码平台(重点)3. 有道翻译爬虫(重点)上篇1. selenium其他使用(应用)控制浏览器切换标签页:切换frame页面:iframe页面:一个html页面中,嵌套了另一个html页面.selenium处理cookie数据:控制浏览器执行 js 代码:页面等待:访问页面时,页面上的内容不是立刻加载完成了,定位查找页面元素时,可能需要一定时间的等待。1)强
2021-07-13 19:56:04 63
原创 爬虫-day04
文章目录上篇1. xpath案例-百度贴吧(重点)2. BeautifulSoup4使用下篇1. bs4案例-糗事百科爬虫(重点)2. selenium功能简介3. selenium 基本使用(重点)上篇1. xpath案例-百度贴吧(重点)需求说明:给定一个贴吧的名字,抓取该贴吧中,第一页中帖子的标题、帖子的详情页url地址,以及帖子详情页中图片的链接,最终要将图片保存到本地。需要抓取的字段:帖子标题(title)帖子详情页url地址(detail_url)详情页所有图片url地址(i
2021-07-13 19:53:11 135
原创 爬虫-day03
文章目录上篇1. 正则匹配语法2. re 模块的使用3. jsonpath 语法(重点)下篇1. jsonpath模块使用(重点)2. xpath 语法简介(重点)3. lxml模块基本使用(重点)4. xpath案例-百度贴吧上篇1. 正则匹配语法匹配单个字符:正则语法描述.匹配任意1个字符(除了\n)[]匹配[ ]中列举的字符\d匹配数字,即0-9\D匹配非数字,即不是数字\s匹配空白,即 空格,tab键\S匹配非空白\w匹配
2021-07-13 19:48:18 80
原创 爬虫-day02
文章目录上篇1. requests 请求时设置请求头(重点)2. requests 请求时携带查询参数(重点)3. GET 和 POST 请求的区别(了解)4. 使用代理的目的和代理分类5. requests 模块使用代理的基本语法(重点)6. 案例-使用代理请求唱吧网站(重点)7. 爬虫中使用 Cookie 的原因8. requests 请求携带 Cookie(重点)下篇1. requests 携带 Cookie(重点)2. 补充:将 cookie 字符串转换为 Python 字典(了解)3. 补充:Re
2021-07-13 19:41:09 99
原创 爬虫-day01
文章目录上篇1. 数据分析的一般流程2. 为什么需要爬虫?3. 爬虫的流程(重点)4. HTTP 请求过程(重点)5. 完整 URL 地址的格式(重点)6. HTTP 请求报文格式7. HTTP 响应报文格式8. 状态保持机制下篇1. 浏览器开发者工具(重点)2. requests 模块简介3. requests 模块发送 GET 请求(重点)4. response 响应内容获取(重点)5. response 响应对象的其他属性6. 案例-保存网络图片(单张)7. 案例-保存网络图片(多张)上篇1. 数
2021-07-13 17:26:34 240
原创 解决Vmware虚拟机桥接网卡问题
2021解决Vmware虚拟机桥接网卡问题最近学习KALI LINUX时,用Vmware设置虚拟机网络时,选择了桥接模式。前两天在桥接模式网络下虚拟机网络一切正常,但是昨天突然发现桥接模式下网络无法使用,虚拟机网络图标一直在转圈,然后显示连接失败,重复循环。最终解决如下:首先确保虚拟机桥接网络设置正确,下面是正确配置:然后打开虚拟机,编辑网络连接设置,把IPv4设置中动态地址分配改为手动分配。确保主机IP地址和虚拟机IP地址在同一个网段下,DNS地址不要忘记设置,否则无法联网。最后用pin
2021-04-04 23:55:07 3615 3
爬虫讲义【2021最新版 】【超详细】
2021-07-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人