自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

牧阳MuYang的博客

牧阳的自留地

  • 博客(14)
  • 收藏
  • 关注

原创 Python网络爬虫-6

XPath基础# XPath表达式'''XPath与正则对比:1. XPath效率高2. 正则功能强大3. 一般优先选择XPath,但是XPath解决不了的问题,则用正则解决# 简单说明快速使用,更为完善的版本以后补上/ 逐层提取text() 提取标签下面的文本//标签名A 提取所有名为A的标签//标签名A[@属性名B='属性值b'] 提取属性B值为b的标签@属性名 取某...

2020-03-25 14:42:30 415

原创 Mac MySQL数据库问题集锦

1. 使用Mac下的sequel Pro数据库错误MySQL said: Authentication plugin 'caching_sha2_password’解决方案两个:如果系统偏好设置里面有MySQL的使用方案一:打开系统偏好设置,找到mysql,点击Initialize Database。输入你的新密码,记住这个密码,用于后期链接数据库的登陆使用。选择‘Use ...

2020-03-25 14:14:41 311

原创 Python网络爬虫-bugs记录

1. Scrapy运行报错:ModuleNotFoundError: No module named 'dang.dang’运行爬虫文件报错:from dangdang.dangdang.items import DangdangItemModuleNotFoundError: No module named 'dangdang.dangdang'解决问题注意:引入items的路径。i...

2020-03-23 19:06:01 253

原创 Python网络爬虫-5

认识Scrapy框架# 概述'''开发Python爬虫方式很多,从程序的复杂程度角度说,可分为:爬虫项目和爬虫文件Python的urllib模块一般用于写爬虫文件,大型项目为了提高开发效率一般用Scrapy框架。'''# Scrapy框架安装难点解决技巧推荐安装步骤常见问题解决...

2020-03-23 11:45:38 418

原创 Python网络爬虫-4

微信爬虫实战# 微信爬虫'''搜狗微信爬虫参考学习搜狗反扒机制做的很好,所以容易触发验证码审核# 封装的用户代理和IP代理方法,方法参数为访问链接,方法内部最多循环5次访问,IP和代理或网站还不能成功访问则停止def ua_ip(myurl): import urllib.request import random uapools = [ "M...

2020-03-21 17:15:11 834

原创 Python网络爬虫-抓包工具篇(Charles安装证书抓取HTTPS)

Mac 端第一步 配置HTTP代理 点击 Charles菜单下 Proxy-> Proxy Setting ,这步与抓取HTTP请求是一样的:选择在8888端口上监听,然后确定。选了SOCKS proxy,还能截获到浏览器的http访问请求。第二步 安装Mac端根证书:点击 Charles菜单下 Help -> SSL Proxying -> Install Cha...

2020-03-20 23:15:40 1039

原创 Python网络爬虫-3

用户代理池构建用户代理池概述用户代理池构建实战# 用户代理池概述'''所谓用户代理池,即将不用的用户代理组建成为一个池子,随后随机调用。'''# 用户代理池构建实战'''import urllib.requestimport reimport randomuapools = [ "Mozilla/5.0(Macintosh;U;IntelMacOSX10_6...

2020-03-20 14:09:24 151

原创 Pycharm常用快捷键

选中代码向上/向下移动向上移动:Alt/command + shift + ⬆️向下移动:Alt/command + shift + ⬇️选中代码向左/向右移动向左移动: shift + tab向右移动:tab...

2020-03-19 15:57:17 133

原创 Python网络爬虫-1

网络爬虫初识如何查看模块功能以及如何安装模块网络爬虫是什么?网络爬虫能做什么事情?# 如何查看模块功能以及如何安装模块'''当新接触到一个模块的时候,如何了解这个模块的功能。主要方法有:1.help()--输入对应的模块名2.阅读该模块的文档,一些大型的模块都有,比如scrapy3.查看模块的源代码,分析各方法的作用,也可以从名字进行相应的分析'''# 网络爬虫是什么?...

2020-03-17 21:59:57 726

原创 Python语法基础快速学习-3

Python函数详解认识Python函数局部变量与全局变量函数的定义和调用函数参数使用详解# 认识Python函数'''函数的本质就是功能的封装。使用函数可以提高编程的效率与程序的可读性。'''# 局部变量与全局变量'''变量是有生效范围的,这个生效范围我们成为作用域。作用域从变量出现开始到程序的最末的变量叫做全局变量;作用域只在局部的变量叫做局部变量。i = ...

2020-03-14 17:59:13 207

原创 Python网络爬虫-2

Urllib库实战urllib基础超时设置自动模拟HTTP请求# urllib基础'''urlretrieve(网址,本地文件存储地址): 直接下载网页到本地urlcleanup():清除缓存或者内存info(): 说明当前爬取页面相应信息getcode(): 返回网页爬取的状态码geturl(): 获取当前爬取页面的URL地址import urllib.reques...

2020-03-14 16:11:00 283

原创 Python语法基础快速学习-2

目 录三种控制流概述if语句while语句for语句中断结构输出乘法口诀# 三种控制流概述'''程序执行流程我们叫作程序的控制流,Python中有3种基本控制流:1.顺序结构2.条件分支结构3.循环结构'''# if语句'''if语句是一种条件分支结构语句#a = 11#a = 8#a = 9a = 10b = 1if(a > 10): ...

2020-03-12 17:24:16 102

原创 Python语法基础快速学习-1

目录输出注释标识符变量数据类型运算符缩进# 输出print("hello python!")# 注释1.#注释法(单行)2.三引号注释法(多行),单引号、双引号都可以# print("hello python!")'''print("hello python!")print("hello python!")'''# 标识符'''标识符是标注某个东西的...

2020-03-10 09:30:55 210 1

原创 Linux基础命令学习

01-Linux命令简介01. 常用Linux命令的基本使用1. ls # list 查看当前文件夹下的内容2. pwd # print work directory 查看当前所在文件夹路径3. cd[目录名] #change directory 切换文件夹4. touch[文件名] #如果文件不存在,新建文件5. mkdir[目录名] #make directory 创建目录6. ...

2020-03-07 19:12:14 169

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除