自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 ML模型训练过程时切割数据集和GridSearchCV中best_score的比较

使用切割数据集和GridSearchCV两种方法对模型超参数进行选择,比较两种方法的优缺点。

2020-04-02 16:40:01 4966 1

原创 科学计算库Pandas的使用(附思维导图)

pandas Pandas介绍 2008年WesMcKinney开发出的库; 专门用于数据挖掘的开源python库; 以Numpy为基础,借力Numpy模块在计算方面性能高的优势; 基于matplotlib,能够简便的画图; 独特的数据结构; 相较于matplotlib和numpy 增强图表可读性 便捷的数据处理能力 读取文件方便 封装了Matplotlib、Numpy的画图和计算 pand...

2020-03-27 23:27:34 567

原创 matplotlib及numpy等科学计算库的使用(附思维导图)

本文档开头为两个科学计算库的思维导图,清晰度尚可。以防万一,后附md文档。

2020-03-26 14:42:17 1009 1

原创 百度翻译爬虫破解

爬取的网页选择的百度翻译的手机版,因为通常手机版的反扒措施会少一些。爬取的过程主要分为两步,首先将输入内容进行语言检测,返回的表单中包含语言的种类。第二步,需要向发送一个post请求,请求表单中包含sign值,需要通过js逆向在资源中找出,在本地写成js文件。

2020-03-24 16:13:46 917 6

原创 多线程爬取糗事百科

import threading from queue import Queue import requests from lxml import etree class qiushi_threading(): def __init__(self): self.url="http://www.qiushibaike.com/8hr/page/{}" sel...

2020-03-24 15:53:31 144

原创 机器学习过程概述

此文档为思维导图导入的md文档。主要从机器学习工作流程、算法分类和模型评估三个方面简要阐述机器学习。

2020-03-24 15:31:08 4507

原创 多任务编程学习笔记

多任务编程 多任务是指在同一时间内执行多个任务,例如: 现在电脑安装的操作系统都是多任务操作系统,可以同时运行着多个软件。 并发:在一段时间内交替去执行任务 并行:对于多核cpu处理多任务,操作系统会给cpu的每个内核安排一个执行的软件,多个内核是真正的一起执行软件。这里需要注意多核cpu是并行的执行多任务,始终有多个软件一起执行。 进程 一个正在运行的程序或者软件就是一个进程,它是操作系统...

2020-03-23 23:38:26 112

原创 Redis常见操作及主从、集群搭建

Redis 数据操作 string 设置键值 set key value 设置键值及过期时间,以秒为单位 setex key seconds value 设置多个键值 mset key1 value1 key2 value2 … 追加值 append key value 获取:根据键获取值,如果不存在此键则返回nil get key 根据多个键获取多个值 mget key1 key2 … 键操...

2020-03-23 23:31:59 118

原创 正则表达式中"."和"*"匹配的实现

思路比较清晰,实现比较简单的一种方法。 # 正则表达式中"."和"*"的实现 class Regular(object): def re_match(self,str1,str2): list1 = list(str1) list2 = list(str2) count = 0 while list2: ...

2020-03-04 11:18:40 563

原创 Scrapy快速爬取招聘网站信息

本文选取的招聘网站是职友集(www.jobui.com) ,其他招聘网站大体类似。本文以此为例,简单介绍Scrapy框架的使用。 1.pip install Scrapy 这点就不用说了,当然要准备好python和pip环境了。 2.scrapy startproject myScrapy 创建自定义名字myScrapy的项目 3.scrapy genspider jobui jobui.com ...

2020-03-04 10:50:16 1257

原创 斗鱼房间信息自动化爬取

此处选择的网址是斗鱼绝地求生界面。使用自动化测试工具selenium,为什么选selenium而不要requests呢? 因为在翻页的时候网址不会变化,使用requests没有next_url不太方便。xpath路径最好自己写,灵活一点,F12选中元素copy xpath只能选中单个元素。 主要遇到了两个坑。一个是在加载页面和翻页的时候,要time.sleep()几秒。二是写“下一页”标签的xpa...

2020-02-28 11:28:35 261

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除