自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 ML模型训练过程时切割数据集和GridSearchCV中best_score的比较

使用切割数据集和GridSearchCV两种方法对模型超参数进行选择,比较两种方法的优缺点。

2020-04-02 16:40:01 4940 1

原创 科学计算库Pandas的使用(附思维导图)

pandasPandas介绍2008年WesMcKinney开发出的库;专门用于数据挖掘的开源python库;以Numpy为基础,借力Numpy模块在计算方面性能高的优势;基于matplotlib,能够简便的画图;独特的数据结构;相较于matplotlib和numpy增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算pand...

2020-03-27 23:27:34 566

原创 matplotlib及numpy等科学计算库的使用(附思维导图)

本文档开头为两个科学计算库的思维导图,清晰度尚可。以防万一,后附md文档。

2020-03-26 14:42:17 993 1

原创 百度翻译爬虫破解

爬取的网页选择的百度翻译的手机版,因为通常手机版的反扒措施会少一些。爬取的过程主要分为两步,首先将输入内容进行语言检测,返回的表单中包含语言的种类。第二步,需要向发送一个post请求,请求表单中包含sign值,需要通过js逆向在资源中找出,在本地写成js文件。

2020-03-24 16:13:46 892 6

原创 多线程爬取糗事百科

import threadingfrom queue import Queueimport requestsfrom lxml import etreeclass qiushi_threading(): def __init__(self): self.url="http://www.qiushibaike.com/8hr/page/{}" sel...

2020-03-24 15:53:31 135

原创 机器学习过程概述

此文档为思维导图导入的md文档。主要从机器学习工作流程、算法分类和模型评估三个方面简要阐述机器学习。

2020-03-24 15:31:08 4486

原创 多任务编程学习笔记

多任务编程多任务是指在同一时间内执行多个任务,例如: 现在电脑安装的操作系统都是多任务操作系统,可以同时运行着多个软件。并发:在一段时间内交替去执行任务并行:对于多核cpu处理多任务,操作系统会给cpu的每个内核安排一个执行的软件,多个内核是真正的一起执行软件。这里需要注意多核cpu是并行的执行多任务,始终有多个软件一起执行。进程一个正在运行的程序或者软件就是一个进程,它是操作系统...

2020-03-23 23:38:26 111

原创 Redis常见操作及主从、集群搭建

Redis数据操作string设置键值set key value设置键值及过期时间,以秒为单位setex key seconds value设置多个键值mset key1 value1 key2 value2 …追加值append key value获取:根据键获取值,如果不存在此键则返回nilget key根据多个键获取多个值mget key1 key2 …键操...

2020-03-23 23:31:59 118

原创 正则表达式中"."和"*"匹配的实现

思路比较清晰,实现比较简单的一种方法。# 正则表达式中"."和"*"的实现class Regular(object): def re_match(self,str1,str2): list1 = list(str1) list2 = list(str2) count = 0 while list2: ...

2020-03-04 11:18:40 557

原创 Scrapy快速爬取招聘网站信息

本文选取的招聘网站是职友集(www.jobui.com) ,其他招聘网站大体类似。本文以此为例,简单介绍Scrapy框架的使用。1.pip install Scrapy这点就不用说了,当然要准备好python和pip环境了。2.scrapy startproject myScrapy创建自定义名字myScrapy的项目3.scrapy genspider jobui jobui.com...

2020-03-04 10:50:16 1252

原创 斗鱼房间信息自动化爬取

此处选择的网址是斗鱼绝地求生界面。使用自动化测试工具selenium,为什么选selenium而不要requests呢? 因为在翻页的时候网址不会变化,使用requests没有next_url不太方便。xpath路径最好自己写,灵活一点,F12选中元素copy xpath只能选中单个元素。主要遇到了两个坑。一个是在加载页面和翻页的时候,要time.sleep()几秒。二是写“下一页”标签的xpa...

2020-02-28 11:28:35 257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除