- 博客(11)
- 收藏
- 关注
原创 ML模型训练过程时切割数据集和GridSearchCV中best_score的比较
使用切割数据集和GridSearchCV两种方法对模型超参数进行选择,比较两种方法的优缺点。
2020-04-02 16:40:01 4966 1
原创 科学计算库Pandas的使用(附思维导图)
pandas Pandas介绍 2008年WesMcKinney开发出的库; 专门用于数据挖掘的开源python库; 以Numpy为基础,借力Numpy模块在计算方面性能高的优势; 基于matplotlib,能够简便的画图; 独特的数据结构; 相较于matplotlib和numpy 增强图表可读性 便捷的数据处理能力 读取文件方便 封装了Matplotlib、Numpy的画图和计算 pand...
2020-03-27 23:27:34 567
原创 matplotlib及numpy等科学计算库的使用(附思维导图)
本文档开头为两个科学计算库的思维导图,清晰度尚可。以防万一,后附md文档。
2020-03-26 14:42:17 1009 1
原创 百度翻译爬虫破解
爬取的网页选择的百度翻译的手机版,因为通常手机版的反扒措施会少一些。爬取的过程主要分为两步,首先将输入内容进行语言检测,返回的表单中包含语言的种类。第二步,需要向发送一个post请求,请求表单中包含sign值,需要通过js逆向在资源中找出,在本地写成js文件。
2020-03-24 16:13:46 917 6
原创 多线程爬取糗事百科
import threading from queue import Queue import requests from lxml import etree class qiushi_threading(): def __init__(self): self.url="http://www.qiushibaike.com/8hr/page/{}" sel...
2020-03-24 15:53:31 144
原创 多任务编程学习笔记
多任务编程 多任务是指在同一时间内执行多个任务,例如: 现在电脑安装的操作系统都是多任务操作系统,可以同时运行着多个软件。 并发:在一段时间内交替去执行任务 并行:对于多核cpu处理多任务,操作系统会给cpu的每个内核安排一个执行的软件,多个内核是真正的一起执行软件。这里需要注意多核cpu是并行的执行多任务,始终有多个软件一起执行。 进程 一个正在运行的程序或者软件就是一个进程,它是操作系统...
2020-03-23 23:38:26 112
原创 Redis常见操作及主从、集群搭建
Redis 数据操作 string 设置键值 set key value 设置键值及过期时间,以秒为单位 setex key seconds value 设置多个键值 mset key1 value1 key2 value2 … 追加值 append key value 获取:根据键获取值,如果不存在此键则返回nil get key 根据多个键获取多个值 mget key1 key2 … 键操...
2020-03-23 23:31:59 118
原创 正则表达式中"."和"*"匹配的实现
思路比较清晰,实现比较简单的一种方法。 # 正则表达式中"."和"*"的实现 class Regular(object): def re_match(self,str1,str2): list1 = list(str1) list2 = list(str2) count = 0 while list2: ...
2020-03-04 11:18:40 563
原创 Scrapy快速爬取招聘网站信息
本文选取的招聘网站是职友集(www.jobui.com) ,其他招聘网站大体类似。本文以此为例,简单介绍Scrapy框架的使用。 1.pip install Scrapy 这点就不用说了,当然要准备好python和pip环境了。 2.scrapy startproject myScrapy 创建自定义名字myScrapy的项目 3.scrapy genspider jobui jobui.com ...
2020-03-04 10:50:16 1257
原创 斗鱼房间信息自动化爬取
此处选择的网址是斗鱼绝地求生界面。使用自动化测试工具selenium,为什么选selenium而不要requests呢? 因为在翻页的时候网址不会变化,使用requests没有next_url不太方便。xpath路径最好自己写,灵活一点,F12选中元素copy xpath只能选中单个元素。 主要遇到了两个坑。一个是在加载页面和翻页的时候,要time.sleep()几秒。二是写“下一页”标签的xpa...
2020-02-28 11:28:35 261
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人