ＪＩＮＣＨＥＮＧ０４０８-CSDN博客

原创 ML模型训练过程时切割数据集和GridSearchCV中best_score的比较

使用切割数据集和GridSearchCV两种方法对模型超参数进行选择，比较两种方法的优缺点。

2020-04-02 16:40:01 4966 1

原创科学计算库Pandas的使用（附思维导图）

pandas Pandas介绍 2008年WesMcKinney开发出的库；专门用于数据挖掘的开源python库；以Numpy为基础，借力Numpy模块在计算方面性能高的优势；基于matplotlib，能够简便的画图；独特的数据结构；相较于matplotlib和numpy 增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算 pand...

2020-03-27 23:27:34 567

原创 matplotlib及numpy等科学计算库的使用（附思维导图）

本文档开头为两个科学计算库的思维导图，清晰度尚可。以防万一，后附md文档。

2020-03-26 14:42:17 1009 1

原创百度翻译爬虫破解

爬取的网页选择的百度翻译的手机版，因为通常手机版的反扒措施会少一些。爬取的过程主要分为两步，首先将输入内容进行语言检测，返回的表单中包含语言的种类。第二步，需要向发送一个post请求，请求表单中包含sign值，需要通过js逆向在资源中找出，在本地写成js文件。

2020-03-24 16:13:46 917 6

原创多线程爬取糗事百科

import threading from queue import Queue import requests from lxml import etree class qiushi_threading(): def __init__(self): self.url="http://www.qiushibaike.com/8hr/page/{}" sel...

2020-03-24 15:53:31 144

原创机器学习过程概述

此文档为思维导图导入的md文档。主要从机器学习工作流程、算法分类和模型评估三个方面简要阐述机器学习。

2020-03-24 15:31:08 4507

原创多任务编程学习笔记

多任务编程多任务是指在同一时间内执行多个任务，例如: 现在电脑安装的操作系统都是多任务操作系统，可以同时运行着多个软件。并发:在一段时间内交替去执行任务并行:对于多核cpu处理多任务，操作系统会给cpu的每个内核安排一个执行的软件，多个内核是真正的一起执行软件。这里需要注意多核cpu是并行的执行多任务，始终有多个软件一起执行。进程一个正在运行的程序或者软件就是一个进程，它是操作系统...

2020-03-23 23:38:26 112

Redis 数据操作 string 设置键值 set key value 设置键值及过期时间，以秒为单位 setex key seconds value 设置多个键值 mset key1 value1 key2 value2 … 追加值 append key value 获取：根据键获取值，如果不存在此键则返回nil get key 根据多个键获取多个值 mget key1 key2 … 键操...

2020-03-23 23:31:59 118

原创正则表达式中"."和"*"匹配的实现

思路比较清晰，实现比较简单的一种方法。 # 正则表达式中"."和"*"的实现 class Regular(object): def re_match(self,str1,str2): list1 = list(str1) list2 = list(str2) count = 0 while list2: ...

2020-03-04 11:18:40 563

原创 Scrapy快速爬取招聘网站信息

本文选取的招聘网站是职友集（www.jobui.com) ,其他招聘网站大体类似。本文以此为例，简单介绍Scrapy框架的使用。 1.pip install Scrapy 这点就不用说了，当然要准备好python和pip环境了。 2.scrapy startproject myScrapy 创建自定义名字myScrapy的项目 3.scrapy genspider jobui jobui.com ...

2020-03-04 10:50:16 1257

原创斗鱼房间信息自动化爬取

此处选择的网址是斗鱼绝地求生界面。使用自动化测试工具selenium，为什么选selenium而不要requests呢？因为在翻页的时候网址不会变化，使用requests没有next_url不太方便。xpath路径最好自己写，灵活一点，F12选中元素copy xpath只能选中单个元素。主要遇到了两个坑。一个是在加载页面和翻页的时候，要time.sleep()几秒。二是写“下一页”标签的xpa...

2020-02-28 11:28:35 261

weixin_43297167的博客