haimian_baba-CSDN博客

原创 go语言学习笔记

//当前程序的包名package main//导入的包名import "fmt"/*1、import "fmt"import "io"import "os"可以写成import{ "fmt" "io" "os"}2、导入包之后可以使用格式<PackageName>.<FuncName>来对包中的函数进行调用如果导入包之后未调用其中的函数...

2020-04-24 13:59:59 163

原创联网小工具

@echo offset num=0setlocal enabledelayedexpansionfor /f "delims=" %%i in (Config.ini) do ( set /a num+=1 set str=%%i if !num! equ 4 set adslpassword=!str:~9! if !num! equ 5 set adsl...

2020-03-26 16:41:58 452

原创 python爬虫学习（二十）异步爬虫、线程池

# import time# #使用单线程串行的方式执行# def get_page(str):# print("正在下载：",str)# time.sleep(2)# print('下载成功：',str)# name_list = ['xiaozi','aa','bb','cc']# start_time = time.time()## for i in...

2020-03-11 11:00:38 324

原创 python爬虫学习（十九）IP代理

import requestsurl = 'https://www.baidu.com/s?wd=ip'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36', ...

2020-03-10 14:15:03 182

原创 python爬虫学习（十八）人人网cookie登录

import requestsfrom lxml import etreefrom codeClass import YDMHttp#封装打码平台代码path = 'code.jpg'def getCodeText(imgPath,codeType): # 用户名 username = '********' # 密码 password = '****...

2020-03-09 14:29:04 554

原创 python爬虫学习（十七）人人网模拟登录

注意事项，页面产生跳转html保存下来的是一串字符验证码验证类型记得改可以用页面返回值200验证登录成功与否import requestsfrom lxml import etreefrom codeClass import YDMHttp#封装打码平台代码path = 'code.jpg'def getCodeText(imgPath,codeType): # 用户名...

2020-01-21 11:39:45 330

原创 python爬虫学习（十六）古诗文网验证码识别

先注册云打码，再去开发者模式下载pythonhttp示例代码# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport osfrom codeClass import YDMHttp#封装打码平台代码def getCodeText(imgPath,codeType): # 用户名 usernam...

2020-01-03 16:07:24 361

原创 python爬虫学习（十五）xpath模板下载

# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport osif __name__ == '__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...

2020-01-03 14:55:09 280

原创 python爬虫学习（十四）xpath获取不同标签城市名

# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport osif __name__ == '__main__': # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (...

2020-01-03 11:04:15 350

原创 python爬虫学习（十三）xpath爬取妹子图片

# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport osif __name__ == '__main__': #爬取页面源码数据 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi...

2020-01-03 10:32:14 681 1

原创 python爬虫学习（十二）xpath解析爬取58二手房

xpath解析：最常用且便捷高效的解析方式，通用性1、实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中2、调用etree对象中的xpath方法结合这xpath表示式实现标签的定位和内容的捕获环境的安装1、pip install lxml如何实例化一个etree对象：from lxml import etree1、将本地的html文档中的源码数据加载到etr...

2020-01-02 19:06:47 733

原创 python爬虫学习（十一）bs4解析爬取三国演义

# -*- coding: utf-8 -*-import lxmlimport requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ...

2019-12-29 16:32:26 860

原创 python爬虫学习（十）bs4解析数据

lxml安装是个坑# -*- coding: utf-8 -*-import lxmlimport requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': # # UA伪装：将对应的User-Agent封装到字典中 # headers = { # 'User-Agent': 'Mozi...

2019-12-29 16:02:46 161

原创 python爬虫学习（九）妹子图分页爬取

就是把url换成了通配符比较简单# -*- coding: utf-8 -*-import requestsimport reimport osif __name__ == '__main__': #创建一个文件夹，保存所有图片 if not os.path.exists('./MMLibs'): os.mkdir('./MMLibs') he...

2019-12-28 17:28:06 250

原创 python爬虫学习（八）正则表达式批量爬取妹子图片

正则那块弄了蛮久，一点点去试# -*- coding: utf-8 -*-import requestsimport reimport osif __name__ == '__main__': #创建一个文件夹，保存所有图片 if not os.path.exists('./MMLibs'): os.mkdir('./MMLibs') heade...

2019-12-27 15:21:04 430

原创 python爬虫学习（七）爬取单张妹子图片

在网页图片右键可以复制地址大部分网站都有反爬机制，找到一个能爬的不容易遇到不能爬的网站程序也是运行成功，所以输出状态码和错误信息是个好习惯text返回文本json返回对象content返回的是二进制形式的图片数据# -*- coding: utf-8 -*-import requestsif __name__ == '__main__': headers = { ...

2019-12-27 11:38:33 109

原创 python爬虫学习（六）kfc门店地址

这个项目比药监局简单，但是我在抓取url的时候抓成了http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx每次的输出都是-1000，弄了蛮久。以此为鉴。第二就是text格式文件可以用json对象输出# -*- coding: utf-8 -*-import requestsimport jsonif __name__ == '__ma...

2019-12-27 11:05:10 539

原创 python爬虫学习（五）药监局化妆品生产许可

这里面有几个坑，网页url是http://125.35.6.84:81/xk/模拟访问之后只有首页标题，没有数据然后发现是用了ajax，重新找到url第二个坑是这个url的数据也不是最终数据只是个统计数据通过这个url拿到下个url的id再去访问最终的数据# -*- coding: utf-8 -*-import requestsimport jsonif __name__ == ...

2019-12-26 13:17:02 1161

原创 python爬虫学习（四）豆瓣电影分类top100

豆瓣喜剧分类top100当下拉的时候发现也是用了Ajax找到url后发现带了参数分析发现最后两次参数的意义并修改# -*- coding: utf-8 -*-import requestsimport jsonif __name__ == '__main__': url= 'https://movie.douban.com/j/chart/top_list' #参...

2019-12-25 17:34:16 631

原创 python爬虫学习（三）百度翻译

#post请求(携带了参数)#响应数据是一组json数据先通过抓包找到url发现百度翻译使用了Ajax(局部刷新)所以看抓取的XHR文件XHR文件返回的是一个json文件抓包的话用fiddle或者在页面f12用谷歌开发者工具# -*- coding: utf-8 -*-import requestsimport jsonif __name__ == '__main__':...

2019-12-25 15:24:03 203

原创 python爬虫学习（二）搜索页信息采集

反爬机制UA:User-Agent(请求载体的身份标识)UA检测服务器会检测对应请求的载体身份标识如果检测到请求载体的身份标识是某一个浏览器，说明该请求是一个正常请求如果检测到请求的载体身份标识不是浏览器则标识，该请求为不正常的请求，服务器会拒绝此次请求UA伪装：让爬虫伪装成浏览器# -*- coding: utf-8 -*-import requestsif __name_...

2019-12-25 14:03:30 121

原创 python爬虫学习（一）

requests库使用# -*- coding: utf-8 -*-import requestsif __name__ == '__main__': #step1 获取url url ="https://www.sogou.com/" #step2 发起请求 #get方法会返回一个响应数据 response = requests.get(url=ur...

2019-12-25 12:34:48 101

原创 http\https协议分析

http协议http头文件User-Agent：请求载体的身份标识Connection：请求完毕之后，是断开连接还是保持连接响应信息Content-Type：服务器响应回客户端的数据类型https协议-对称密钥加密-非对称密钥加密-证书密钥加密视频才讲这么一点，改天补充...

2019-12-24 19:14:47 411

原创 c、c++设置注册表的方式实现自启动

c、c++以注册表方式设置自启动，函数可以直接调用void RegStart(){ TCHAR FileName[200]; //GetModuleFileName 获取当前程序路径，第一个参数NULL，第二参数存放的内存地址，第三个参数内存大小 GetModuleFileName(NULL, FileName, 200); //自启的注册表地址 char *Register = (...

2019-12-13 17:15:09 484

haimian_baba的博客