Harken丶-CSDN博客

原创 2021_12_14自学笔记_Requests的基本使用和get请求

* coding : utf-8 *@Time : 2021/12/14 18:11@Author : Harkenimport requestsurl = ‘http://fanyi.baidu.com/sug’headers = {‘User-Agent’: ’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’

2021-12-14 20:08:22 667

原创 2021_12_12自学笔记_Requests的基本使用和get请求

# _*_ coding : utf-8 _*_# @Time : 2021/12/12 23:13# @Author : Harken# Requests安装# pip install requests -i https://pypi.douban.com/simple# response的属性以及类型(和urllib不一样的是它是response类型)# 类型 :models.Response# r.text :获取网站源码# r.encodi

2021-12-12 23:43:35 347

原创 2021_12_12自学笔记_selenium提升性能_phantomjs_Chrome handless

# _*_ coding : utf-8 _*_# @Time : 2021/12/12 22:19# @Author : Harken# Phantonmjs (停止更新了，仅记录)# 什么是Phantonmjs# 1.无界面的浏览器# 2.支持页面元素查找，js的执行等# 3.由于不进行css和gui渲染，运行效率比真实浏览器快很多## 如何使用# 1.获取PhantonmJS.exe文件路径path# 2.browser = webdri

2021-12-12 22:52:42 584

原创 2021_12_10 自学笔记_selenium交互

# _*_ coding : utf-8 _*_# @Time : 2021/12/10 15:00# @Author : Harken# 交互# 点击：click()# 输入：send_keys()# 后退操作：browser.back()# 前进操作：browser.forword()# 模拟js滚动# js = 'document.documentElement.scrollTop=100000'# bro

2021-12-10 16:26:53 355 1

原创 2021_12_09 自学笔记_selenium的学习与基本使用

# _*_ coding : utf-8 _*_# @Time : 2021/12/9 15:59# @Author : Harken# selenium 模拟浏览器功能，自动执行网页中的js代码，自动化# 安装# 1.下载谷歌浏览器驱动# https://chromedriver.storage.googleapis.com/index.html# 2.谷歌驱动和谷歌浏览器版本之间的映射表# http://blog.csdn.net/huilan_same/article/d

2021-12-09 17:37:16 810

原创 2021_12_06 自学笔记_JsonPath解析和bs4解析

* coding : utf-8 *@Time : 2021/12/6 16:59@Author : Harken安装指令以及国内源进入到自己安装python的文件夹，库一般在Scripts里cd d: cd Python cd Scriptspip install xxx -i https://pypi.douban.com/simplejsonpath安装pip安装：pip install jsonpathjsonpath的使用：obj = json.load(open(‘jso

2021-12-06 18:33:18 547

原创 2021_12_04_自学笔记_利用XPATH获取图片素材

# _*_ coding : utf-8 _*_# @Time : 2021/12/4 18:20# @Author : Harken# 1.请求对象定制# 2.获取网页源码# 3.下载前十页的图片# 页码结构# https://sc.chinaz.com/tag_tupian/HeiBai.html'# https://sc.chinaz.com/tag_tupian/heibai_page.htmlimport urllib.requestfrom lxml import et

2021-12-04 19:57:48 189

原创 2021_12_04_自学笔记_获取百度网站的百度一下

# _*_ coding : utf-8 _*_# @Time : 2021/12/4 17:50# @Author : Harken# 1.获取网页源码# 2.解析解析的服务器响应的文件 etree.HTML# 3.打印import urllib.requesturl = 'https://www.baidu.com/'headers = { 'User-Agent': ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW

2021-12-04 18:15:10 768

原创 2021_12_01_自学笔记_解析_xpath插件的安装和基本使用

* coding : utf-8 *@Time : 2021/12/1 16:56@Author : Harken扩展插件安装XPath Helper1.安装lxml库进入到自己安装python的文件夹，库一般在Scripts力cd d: cd Python cd Scriptspip install lxml -i https://pypi.douban.com/simple2.导入lxml.etreefrom lxml import etree3.etree.parse() 解析

2021-12-01 19:04:54 471

原创 2021_11_25_自学笔记_urllib_handler处理器的基本使用及代理

* coding : utf-8 *@Time : 2021/11/25 15:44@Author : Harken为什么要学习handler？urllib.request.urlopen(url) 不能定制请求头urllib.request.Request(url,headers,data) 可以定制请求头handler 定制更高级的请求头（动态cookie和代理不能使用请求对象的定制）#例子

2021-11-25 16:39:29 5706

原创 2021_11_25_自学笔记_urllib_微博的cookie登录

* coding : utf-8 *@Time : 2021/11/25 15:14@Author : Harken适用场景：数据采集时候，绕过登录个人信息页面是ut-8 但是还报错，因为并没有进入个人信息页面登录页面不是utf-8 所以报错import urllib.requesturl = ‘https://weibo.com/5638695973/L37xPeSDk’headers = {‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Wi

2021-11-25 15:44:43 599

原创 2021_11_23_自学笔记_ajax的post请求肯德基

* coding : utf-8 *@Time : 2021/11/23 17:52@Author : Harken爬取KFC官网餐厅位置的信息Headers里面X-Requested-With: XMLHttpRequest即为aja第一页http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cnamepostcname: 北京pid:pageIndex: 1pageSize: 10第二页http://www.kfc.co

2021-11-23 18:43:49 859

原创 2021_11_20_自学笔记_ajax的get请求豆瓣电影第1页/第1-10页

* coding : utf-8 *@Time : 2021/11/20 17:28@Author : Harkenajax的get请求豆瓣电影第一页，并保存import urllib.requestimport data as dataurl = ‘https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20’headers = {

2021-11-20 20:16:41 1162

原创 2021_11_19_自学笔记_post请求百度翻译

* coding : utf-8 *@Time : 2021/11/19 16:45@Author : Harkenpost 请求import urllib.requestimport urllib.parseurl = ‘https://fanyi.baidu.com/sug’headers = {‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C

2021-11-20 17:15:43 721

原创 2021_11_18_urllib_基本使用

* coding : utf-8 *@Time : 2021/11/18 15:10@Author : Harken使用urllib获取百度首页的源码调用urllibimport urllib.request1.定义一个urlurl = ‘http://www.baidu.com’2.模拟浏览器向服务器发送请求 response(响应)response = urllib.request.urlopen(url)3.获取响应中的页面的源码read方法：返回的是字节形式的二进制数据将二

2021-11-18 17:05:19 192

原创 2021_11-17_自学笔记_异常_页面结构_爬虫概念

异常的格式try:可能出现的异常except 异常的内省友好的提示try:fp = open(‘1.txt’,‘r’)fp.read()except FileNotFoundError:print(‘洗脚城正在装修，请下次再来’)页面结构的一些常用标签 Titletable:表格；tr:行；td:列姓名年龄性别

2021-11-17 19:35:23 47

原创 2021_11_16_自学笔记_函数_读取修改文件

* coding : utf-8 *@Time : 2021/11/15 15:05@Author : Harken函数应用场景：当有很多重复的逻辑，需要重复使用的时候，可以使用函数定义函数格式如下：def 函数名():代码def f1():print(‘大哥又来洗脚了哈’)print(‘楼上贵宾1位’)print(‘下次再来哈’)调用函数函数定义好之后，函数体里的代码不会执行，想要执行，需要调用它格式：函数名() 每次调用都会从头开始执行f1()函数参数使用函数来计

2021-11-16 17:44:35 482

原创 2021_11_15_自学笔记_数据类型高级

* coding : utf-8 *@Time : 2021/11/15 14:52@Author : Harken字符串高级获取长度 len查找内容 find 查找指定内容在字符串中是否存在，存在就返回第一次出现的开始位置索引值，不存在返回-1判断 startswith,endswith 判断字符串是不是以谁谁谁开头/结尾计算出现次数 count 返回str在start和end之间，在mystr里面出现的次数替换内容 replace

2021-11-15 17:08:37 663

原创 2021_11_14 自学笔记_输入输出_if判断_for循环

* coding : utf-8 *@Time : 2021/11/14 16:38@Author : Harken格式化输出使用场景：scrapy框架的时候， excel文件 mysql数据库 redis数据库中age = 18name = ‘harken’print( ‘我的名字是%s,我的年龄是%d’ %(name,age) )%s 代表是字符串 %d 代表是数值输入password = input(‘请输入您的密码’)print(‘您的密码是%s:’ % password)

2021-11-14 18:41:31 661

原创 2021_11_13 自学笔记_运算符

* coding : utf-8 *@Time : 2021/11/13 15:46@Author : Harken1.运算符a = 5b = 2print(a + b)print(a - b)print(a * b)print(a / b)print(a // b)取整print(a % b)取余数print(a ** b)指数，就是幂，5的2次方print ((1 + 2) * 2)提高优先级a = “123”b = “456”print(a + b)12345

2021-11-13 18:23:05 991

原创 2021_11_12_自学笔记_命名规范

标识符和命名规范1.标识符由字母，下划线和数字组成，且数字不能开头2.严格区分大小写3.不能使用关键字例如 for 等标识符命名做到顾名思义比如名字就定义为 name 年龄定义为 age驼峰命名法小驼峰： myName bigDog大驼峰： FirstName LastName下划线式： send_buf类型转换int(x) 将x转换成一个整数适用场景：爬虫获取到的字符串类型，但是想要的是整形的a = ‘123’print(type(a))<class ‘str

2021-11-12 17:13:12 310

原创 2021-11-12

目前三十岁，在职零基础。出于对爬虫和量化的兴趣，决定自学Python这里主要用来记录下自己的学习笔记，顺便鞭策自己。2021-11-11-Python自学笔记-Harkentype 方法判断变量的数据类型Numbers (数字)int （整形）long （八进制和十六进制的长整形）（不用记）float （浮点型）complex （复数）（不用记）Boolean (布尔类型)String (字符串)List (列表)Tuple (元组)Dict (字典d

2021-11-12 00:39:25 876

weixin_38002308的博客