自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 2021_12_14自学笔记_Requests的基本使用和get请求

* coding : utf-8 *@Time : 2021/12/14 18:11@Author : Harkenimport requestsurl = ‘http://fanyi.baidu.com/sug’headers = {‘User-Agent’: ’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’

2021-12-14 20:08:22 667

原创 2021_12_12自学笔记_Requests的基本使用和get请求

# _*_ coding : utf-8 _*_# @Time : 2021/12/12 23:13# @Author : Harken# Requests安装# pip install requests -i https://pypi.douban.com/simple# response的属性以及类型(和urllib不一样的是它是response类型)# 类型 :models.Response# r.text :获取网站源码# r.encodi

2021-12-12 23:43:35 347

原创 2021_12_12自学笔记_selenium提升性能_phantomjs_Chrome handless

# _*_ coding : utf-8 _*_# @Time : 2021/12/12 22:19# @Author : Harken# Phantonmjs (停止更新了,仅记录)# 什么是Phantonmjs# 1.无界面的浏览器# 2.支持页面元素查找,js的执行等# 3.由于不进行css和gui渲染,运行效率比真实浏览器快很多## 如何使用# 1.获取PhantonmJS.exe文件路径path# 2.browser = webdri

2021-12-12 22:52:42 584

原创 2021_12_10 自学笔记_selenium交互

# _*_ coding : utf-8 _*_# @Time : 2021/12/10 15:00# @Author : Harken# 交互# 点击:click()# 输入:send_keys()# 后退操作:browser.back()# 前进操作:browser.forword()# 模拟js滚动# js = 'document.documentElement.scrollTop=100000'# bro

2021-12-10 16:26:53 355 1

原创 2021_12_09 自学笔记_selenium的学习与基本使用

# _*_ coding : utf-8 _*_# @Time : 2021/12/9 15:59# @Author : Harken# selenium 模拟浏览器功能,自动执行网页中的js代码,自动化# 安装# 1.下载谷歌浏览器驱动# https://chromedriver.storage.googleapis.com/index.html# 2.谷歌驱动和谷歌浏览器版本之间的映射表# http://blog.csdn.net/huilan_same/article/d

2021-12-09 17:37:16 810

原创 2021_12_06 自学笔记_JsonPath解析和bs4解析

* coding : utf-8 *@Time : 2021/12/6 16:59@Author : Harken安装指令以及国内源进入到自己安装python的文件夹,库一般在Scripts里cd d: cd Python cd Scriptspip install xxx -i https://pypi.douban.com/simplejsonpath安装pip安装:pip install jsonpathjsonpath的使用:obj = json.load(open(‘jso

2021-12-06 18:33:18 547

原创 2021_12_04_自学笔记_利用XPATH获取图片素材

# _*_ coding : utf-8 _*_# @Time : 2021/12/4 18:20# @Author : Harken# 1.请求对象定制# 2.获取网页源码# 3.下载前十页的图片# 页码结构# https://sc.chinaz.com/tag_tupian/HeiBai.html'# https://sc.chinaz.com/tag_tupian/heibai_page.htmlimport urllib.requestfrom lxml import et

2021-12-04 19:57:48 189

原创 2021_12_04_自学笔记_获取百度网站的百度一下

# _*_ coding : utf-8 _*_# @Time : 2021/12/4 17:50# @Author : Harken# 1.获取网页源码# 2.解析 解析的服务器响应的文件 etree.HTML# 3.打印import urllib.requesturl = 'https://www.baidu.com/'headers = { 'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW

2021-12-04 18:15:10 768

原创 2021_12_01_自学笔记_解析_xpath插件的安装和基本使用

* coding : utf-8 *@Time : 2021/12/1 16:56@Author : Harken扩展插件安装XPath Helper1.安装lxml库进入到自己安装python的文件夹,库一般在Scripts力cd d: cd Python cd Scriptspip install lxml -i https://pypi.douban.com/simple2.导入lxml.etreefrom lxml import etree3.etree.parse() 解析

2021-12-01 19:04:54 471

原创 2021_11_25_自学笔记_urllib_handler处理器的基本使用及代理

* coding : utf-8 *@Time : 2021/11/25 15:44@Author : Harken为什么要学习handler?urllib.request.urlopen(url) 不能定制请求头urllib.request.Request(url,headers,data) 可以定制请求头handler 定制更高级的请求头(动态cookie和代理不能使用请求对象的定制)#例子

2021-11-25 16:39:29 5706

原创 2021_11_25_自学笔记_urllib_微博的cookie登录

* coding : utf-8 *@Time : 2021/11/25 15:14@Author : Harken适用场景:数据采集时候,绕过登录个人信息页面是ut-8 但是还报错, 因为并没有进入个人信息页面登录页面不是utf-8 所以报错import urllib.requesturl = ‘https://weibo.com/5638695973/L37xPeSDk’headers = {‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Wi

2021-11-25 15:44:43 599

原创 2021_11_23_自学笔记_ajax的post请求肯德基

* coding : utf-8 *@Time : 2021/11/23 17:52@Author : Harken爬取KFC官网餐厅位置的信息Headers里面X-Requested-With: XMLHttpRequest即为aja第一页http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cnamepostcname: 北京pid:pageIndex: 1pageSize: 10第二页http://www.kfc.co

2021-11-23 18:43:49 859

原创 2021_11_20_自学笔记_ajax的get请求豆瓣电影第1页/第1-10页

* coding : utf-8 *@Time : 2021/11/20 17:28@Author : Harkenajax的get请求豆瓣电影第一页,并保存import urllib.requestimport data as dataurl = ‘https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20’headers = {

2021-11-20 20:16:41 1162

原创 2021_11_19_自学笔记_post请求百度翻译

* coding : utf-8 *@Time : 2021/11/19 16:45@Author : Harkenpost 请求import urllib.requestimport urllib.parseurl = ‘https://fanyi.baidu.com/sug’headers = {‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C

2021-11-20 17:15:43 721

原创 2021_11_18_urllib_基本使用

* coding : utf-8 *@Time : 2021/11/18 15:10@Author : Harken使用urllib获取百度首页的源码调用urllibimport urllib.request1.定义一个urlurl = ‘http://www.baidu.com’2.模拟浏览器向服务器发送请求 response(响应)response = urllib.request.urlopen(url)3.获取响应中的页面的源码read方法:返回的是字节形式的二进制数据将二

2021-11-18 17:05:19 192

原创 2021_11-17_自学笔记_异常_页面结构_爬虫概念

异常的格式try:可能出现的异常except 异常的内省友好的提示try:fp = open(‘1.txt’,‘r’)fp.read()except FileNotFoundError:print(‘洗脚城正在装修,请下次再来’)页面结构的一些常用标签 Titletable:表格;tr:行;td:列 姓名 年龄 性别

2021-11-17 19:35:23 47

原创 2021_11_16_自学笔记_函数_读取修改文件

* coding : utf-8 *@Time : 2021/11/15 15:05@Author : Harken函数 应用场景:当有很多重复的逻辑,需要重复使用的时候,可以使用函数定义函数 格式如下:def 函数名():代码def f1():print(‘大哥又来洗脚了哈’)print(‘楼上贵宾1位’)print(‘下次再来哈’)调用函数 函数定义好之后,函数体里的代码不会执行,想要执行,需要调用它 格式: 函数名() 每次调用都会从头开始执行f1()函数参数使用函数来计

2021-11-16 17:44:35 482

原创 2021_11_15_自学笔记_数据类型高级

* coding : utf-8 *@Time : 2021/11/15 14:52@Author : Harken字符串高级获取长度 len查找内容 find 查找指定内容在字符串中是否存在,存在就返回第一次出现的开始位置索引值,不存在返回-1判断 startswith,endswith 判断字符串是不是以谁谁谁开头/结尾计算出现次数 count 返回str在start和end之间,在mystr里面出现的次数替换内容 replace

2021-11-15 17:08:37 663

原创 2021_11_14 自学笔记_输入输出_if判断_for循环

* coding : utf-8 *@Time : 2021/11/14 16:38@Author : Harken格式化输出使用场景:scrapy框架的时候, excel文件 mysql数据库 redis数据库中age = 18name = ‘harken’print( ‘我的名字是%s,我的年龄是%d’ %(name,age) )%s 代表是字符串 %d 代表是数值输入password = input(‘请输入您的密码’)print(‘您的密码是%s:’ % password)

2021-11-14 18:41:31 661

原创 2021_11_13 自学笔记_运算符

* coding : utf-8 *@Time : 2021/11/13 15:46@Author : Harken1.运算符a = 5b = 2print(a + b)print(a - b)print(a * b)print(a / b)print(a // b)取整print(a % b)取余数print(a ** b)指数,就是幂,5的2次方print ((1 + 2) * 2)提高优先级a = “123”b = “456”print(a + b)12345

2021-11-13 18:23:05 991

原创 2021_11_12_自学笔记_命名规范

标识符和命名规范1.标识符由字母,下划线和数字组成,且数字不能开头2.严格区分大小写3.不能使用关键字例如 for 等标识符命名 做到顾名思义 比如名字 就定义为 name 年龄定义为 age驼峰命名法小驼峰: myName bigDog大驼峰: FirstName LastName下划线式: send_buf类型转换int(x) 将x转换成一个整数适用场景:爬虫获取到的字符串类型,但是想要的是整形的a = ‘123’print(type(a))<class ‘str

2021-11-12 17:13:12 310

原创 2021-11-12

目前三十岁,在职零基础。出于对爬虫和量化的兴趣,决定自学Python这里主要用来记录下自己的学习笔记,顺便鞭策自己。2021-11-11-Python自学笔记-Harkentype 方法判断变量的数据类型Numbers (数字)int (整形)long (八进制和十六进制的长整形)(不用记)float (浮点型)complex (复数) (不用记)Boolean (布尔类型)String (字符串)List (列表)Tuple (元组)Dict (字典d

2021-11-12 00:39:25 876

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除