hhq2lcl-CSDN博客

原创过拟合和欠拟合的一些问题

过拟合和欠拟合一、什么是过拟合和欠拟合？二、过拟合和欠拟合问题1、欠拟合：2、过拟合：2.1 减少过拟合总结：三、产生过拟合原因四、解决过拟合方法4.1 正则化一、什么是过拟合和欠拟合？图一：欠拟合——模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。图二：正常拟合；图三：过拟合——模型拟合度好过头了。二、过拟合和欠拟合问题1、欠拟合：a. 根本原因：特征维度过少，模型过于简单，导致拟合的函数无法满足训练集，误差较大；b. 解决方法：增加特

2020-07-02 13:10:50 690

转载 pandas 分列（二）之不规则字符串及str.extract()

pandas 分列（二）之不规则字符串及str.extract()转载地址：https://www.jianshu.com/p/2e9b0a56405a 分列的一种方式：当所有行在需要的分列的地方都是相同的字母、符号、空格等等的时候，我们可以使用str.split()直接将所有行分成两列。然而在实际工作中，有可能有并不是所有的行都有用于分列的键。今...

2019-10-30 17:53:13 611

原创 Python 个人笔记

一切为了方便！！！一、解决pandas列名显示省略问题。二、连接和读取MySQL数据三、f.to_csv()中文乱码解决方法四、pandas删除列五、类似sas中lag的功能六、条件赋值七、条件正反向筛选八、查看所有列和类型一、解决pandas列名显示省略问题。"""---------------解决pa...

2019-10-25 10:22:03 268

转载 activiti5.13 框架数据库设计说明书

activiti5.13 框架数据库设计说明书新的博客地址: http://lucaslz.com 1、结构设计1.1、逻辑结构设计Activiti使用到的表都是ACT_开头的。ACT_RE_*:’RE’表示repository(存储)，RepositoryService接口所操作的表。带此前缀...

2019-09-19 17:25:19 168

原创 python 爬虫入门练习（一）爬取豆瓣热门书籍

import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport time模拟浏览器登录，url循环url=['https://book.douban.com/review/best/?start={}'.format(str(page*20)) for page in range(10)]heade...

2019-06-17 17:17:30 378

原创解决python 读取sas7bdat文件乱码问题

解决python 读取sas7bdat文件乱码问题之前，使用pd.read_sas()读取出来的文件中文存在乱码，非常恶心；对于奉行【极简主义】的我而言实在想不出其他什么办法解决，就用下面的方法重新安装了个包。虽然显得有些臃肿，不过没办法。如果有哪位读者知道用pd.read_sas()读取数据而不乱码的方法，烦请告诉一下，谢谢！方法一：sas7bdat1）安装sas7bdat包...

2018-12-27 18:09:12 5310 3

转载评分模型的检验方法和标准&信用评分及实现

评分模型的检验方法和标准&amp;信用评分及实现评分模型的检验方法和标准通常有：K-S指标、交换曲线、AR值、Gini数等。例如，K-S指标是用来衡量验证结果是否优于期望值，具体标准为：如果K-S大于40%，模型具有较好的预测功能，发展的模型具有成功的应用价值。K-S值越大，表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。评分模型的检验方法和标准...

2018-12-26 16:05:54 1334

原创 pandas 分列（一）之split()

一、函数详解split()左分列，rsplit()右分列df['A'].str.split（pat = None，n = -1，expand = False ）pat：str，要拆分的字符串或正则表达式。如果未指定，则拆分空格。n：int，默认-1；限制输出中的分割数。None，0和-1被解释为返回所有拆分。【就是当用于分列的依据符号在有多个的话需要指定分列的次数（不指定的话就会根据...

2018-12-06 17:55:51 25927 2

转载机器学习入门知识

机器学习入门知识文本来源：https://www.cnblogs.com/subconscious/p/4107357.html目录前言 1.一个故事说明什么是机器学习 2.机器学习的定义 3.机器学习的范围 4.机器学习的方法 1、回归算法 2、神经网络 3、SVM（支持向量机） 4、聚类算法 5、降维算法 6、推荐算法...

2018-12-06 17:54:46 222

原创 Python基础（二）之 list、tuple、set和dict比较(tuple篇）

Python基础（二）之 list、tuple、set和dict比较(tuple篇）一、tuple创建 t1=('a','b','c',1,2,3)t2=tuple((1,3,1,4,5,2,0)）t3=1,2,'a','python' #任意无符号的对象，以逗号隔开，默认为元组t4=(3,) #元组中只包含一个元素时，需要在元素后面添加逗号#任意无符号...

2018-12-06 17:52:57 143

转载 Pandas时间序列重采样(resample)方法中closed、label的作用

Pandas时间序列重采样(resample)方法中closed、label的作用转载：https://www.jianshu.com/p/061771f0afa9目录Pandas重采样方法resample降采样升采样Pandas提供了便捷的方式对时间序列进行重采样，根据时间粒度的变大或者变小分为降采样和升采样：降采样：时间粒度变大。例如，原来是按天统计的数据，现在变成按周统...

2018-12-02 20:35:40 992

原创 Pandas数据透视表之pivot_table

数据源：https://www.kaggle.com/mjbahmani/machine-learning-workflow-for-house-prices/data1、pivot_table定义df.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=Fa...

2018-12-02 12:07:20 1006

原创 Python3 基础语法

1.1.编码默认情况下， Python 3 源码文件以 UTF-8 编码，所有字符串都是 unicode 字符串。当然你也可以为源码文件指定不同的编码：# -*- coding: cp-1252 -*-1.2.标识符第一个字符必须是字母表中字母或下划线 '_'。标识...

2018-12-02 11:15:24 1379

原创 pandas多层索引转为一层(pivot_table和groupby)

1、源数据表2、生成透视表3、删除一层索引(缺陷：【Pclass】)——【建议用方法二】1）方法一：直接删除法2）方法二：合并索引法由于f2.columns存在数值，且元祖元素无法修改；需要转为list，再转为str。 ...

2018-12-01 21:42:12 11886 1

原创预测&分类波士顿犯罪

Crime in Bostonkaggle上对波士顿的案件分析（作者很懒，只上传了一部分）数据源：https://www.kaggle.com/ankkur13/boston-crime-data一：基本信息查看#导入数据模块import pandas as pdimport numpy as npimpo...

2018-09-17 12:43:18 1866

原创机器学习之K近邻算法（KNN）

K近邻算法（KNN）（最简单易懂的机器学习算法，没有之一）一、定义存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取与样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k...

2018-04-17 11:03:50 332

原创 Python基础（一）之 list、tuple、set和dict比较(list篇）

python list、tuple、set和dict比较（list篇）一、list、tuple、set和dict图表比较二、list1、创建listL1=[1,2,3,3,'a','python'] L2=[2,1,2,3,4]L3=['Hello','Python','Nice']2、list访问prin...

2018-04-16 13:17:22 479

原创数据清洗

2018-04-13 14:47:48 249

原创 EXCEL多元回归分析

一、多元回归分析定义：多元回归分析(Multiple Regression Analysis)是指在相关变量中将一个变量视为因变量，其他一个或多个变量视为自变量，建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。二、不多说，上实例分析过程：1）数据整理2）数据建模：假设回归估算表达式：y=b0+b1x1+b2x2+b3x3+b4x1x2+b5x1x...

2018-04-13 14:36:14 56692

原创 Python3 html获取

import urllib.request #导入urllib库的request模块#指定要抓取的网页url，必须以http开头的url='http://blog.csdn.net/u014453898/article/details/54848707'headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Ap

2017-11-28 10:31:37 564

阅读app.zip

1）本软件是一款提供网络文学搜索的工具，为广大网络文学爱好者提供一种方便、快捷舒适的试读体验（页面简洁，无任何广告）； 2）自定义书源，一切尽有可能（古今中外经典名著以及现代网文都可以下载观看）。本文件附有上千个书源（包括：起点、纵横、追书.......）、自定义书源教程

2019-07-01

Python源码剖析 [文字版].

本文档为文字版，适合有一定python基础者下载使用，！

2017-12-21

Python3-基础语法（纯文本）

本文档适合 python入门使用，主要介绍的是python3的一些基础知识。

2017-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人