- 博客(14)
- 收藏
- 关注
原创 Python网络爬虫-6
XPath基础# XPath表达式'''XPath与正则对比:1. XPath效率高2. 正则功能强大3. 一般优先选择XPath,但是XPath解决不了的问题,则用正则解决# 简单说明快速使用,更为完善的版本以后补上/ 逐层提取text() 提取标签下面的文本//标签名A 提取所有名为A的标签//标签名A[@属性名B='属性值b'] 提取属性B值为b的标签@属性名 取某...
2020-03-25 14:42:30 415
原创 Mac MySQL数据库问题集锦
1. 使用Mac下的sequel Pro数据库错误MySQL said: Authentication plugin 'caching_sha2_password’解决方案两个:如果系统偏好设置里面有MySQL的使用方案一:打开系统偏好设置,找到mysql,点击Initialize Database。输入你的新密码,记住这个密码,用于后期链接数据库的登陆使用。选择‘Use ...
2020-03-25 14:14:41 311
原创 Python网络爬虫-bugs记录
1. Scrapy运行报错:ModuleNotFoundError: No module named 'dang.dang’运行爬虫文件报错:from dangdang.dangdang.items import DangdangItemModuleNotFoundError: No module named 'dangdang.dangdang'解决问题注意:引入items的路径。i...
2020-03-23 19:06:01 253
原创 Python网络爬虫-5
认识Scrapy框架# 概述'''开发Python爬虫方式很多,从程序的复杂程度角度说,可分为:爬虫项目和爬虫文件Python的urllib模块一般用于写爬虫文件,大型项目为了提高开发效率一般用Scrapy框架。'''# Scrapy框架安装难点解决技巧推荐安装步骤常见问题解决...
2020-03-23 11:45:38 418
原创 Python网络爬虫-4
微信爬虫实战# 微信爬虫'''搜狗微信爬虫参考学习搜狗反扒机制做的很好,所以容易触发验证码审核# 封装的用户代理和IP代理方法,方法参数为访问链接,方法内部最多循环5次访问,IP和代理或网站还不能成功访问则停止def ua_ip(myurl): import urllib.request import random uapools = [ "M...
2020-03-21 17:15:11 834
原创 Python网络爬虫-抓包工具篇(Charles安装证书抓取HTTPS)
Mac 端第一步 配置HTTP代理 点击 Charles菜单下 Proxy-> Proxy Setting ,这步与抓取HTTP请求是一样的:选择在8888端口上监听,然后确定。选了SOCKS proxy,还能截获到浏览器的http访问请求。第二步 安装Mac端根证书:点击 Charles菜单下 Help -> SSL Proxying -> Install Cha...
2020-03-20 23:15:40 1039
原创 Python网络爬虫-3
用户代理池构建用户代理池概述用户代理池构建实战# 用户代理池概述'''所谓用户代理池,即将不用的用户代理组建成为一个池子,随后随机调用。'''# 用户代理池构建实战'''import urllib.requestimport reimport randomuapools = [ "Mozilla/5.0(Macintosh;U;IntelMacOSX10_6...
2020-03-20 14:09:24 151
原创 Pycharm常用快捷键
选中代码向上/向下移动向上移动:Alt/command + shift + ⬆️向下移动:Alt/command + shift + ⬇️选中代码向左/向右移动向左移动: shift + tab向右移动:tab...
2020-03-19 15:57:17 133
原创 Python网络爬虫-1
网络爬虫初识如何查看模块功能以及如何安装模块网络爬虫是什么?网络爬虫能做什么事情?# 如何查看模块功能以及如何安装模块'''当新接触到一个模块的时候,如何了解这个模块的功能。主要方法有:1.help()--输入对应的模块名2.阅读该模块的文档,一些大型的模块都有,比如scrapy3.查看模块的源代码,分析各方法的作用,也可以从名字进行相应的分析'''# 网络爬虫是什么?...
2020-03-17 21:59:57 726
原创 Python语法基础快速学习-3
Python函数详解认识Python函数局部变量与全局变量函数的定义和调用函数参数使用详解# 认识Python函数'''函数的本质就是功能的封装。使用函数可以提高编程的效率与程序的可读性。'''# 局部变量与全局变量'''变量是有生效范围的,这个生效范围我们成为作用域。作用域从变量出现开始到程序的最末的变量叫做全局变量;作用域只在局部的变量叫做局部变量。i = ...
2020-03-14 17:59:13 207
原创 Python网络爬虫-2
Urllib库实战urllib基础超时设置自动模拟HTTP请求# urllib基础'''urlretrieve(网址,本地文件存储地址): 直接下载网页到本地urlcleanup():清除缓存或者内存info(): 说明当前爬取页面相应信息getcode(): 返回网页爬取的状态码geturl(): 获取当前爬取页面的URL地址import urllib.reques...
2020-03-14 16:11:00 283
原创 Python语法基础快速学习-2
目 录三种控制流概述if语句while语句for语句中断结构输出乘法口诀# 三种控制流概述'''程序执行流程我们叫作程序的控制流,Python中有3种基本控制流:1.顺序结构2.条件分支结构3.循环结构'''# if语句'''if语句是一种条件分支结构语句#a = 11#a = 8#a = 9a = 10b = 1if(a > 10): ...
2020-03-12 17:24:16 102
原创 Python语法基础快速学习-1
目录输出注释标识符变量数据类型运算符缩进# 输出print("hello python!")# 注释1.#注释法(单行)2.三引号注释法(多行),单引号、双引号都可以# print("hello python!")'''print("hello python!")print("hello python!")'''# 标识符'''标识符是标注某个东西的...
2020-03-10 09:30:55 210 1
原创 Linux基础命令学习
01-Linux命令简介01. 常用Linux命令的基本使用1. ls # list 查看当前文件夹下的内容2. pwd # print work directory 查看当前所在文件夹路径3. cd[目录名] #change directory 切换文件夹4. touch[文件名] #如果文件不存在,新建文件5. mkdir[目录名] #make directory 创建目录6. ...
2020-03-07 19:12:14 169
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人