soda東風-CSDN博客

原创聚类分析-距离衡量

关于聚类分析中距离的考察包括曼哈顿距离欧式距离余弦距离马氏距离划重点要考！

2022-02-15 16:27:14 650

python后端传输文件流给前端已供用户下载到本地方式一:先将dataframe转为csv文件def data_to_excel(data, file_name): # 生成excel暂存目录 os.chdir('/root/xinxiang') temp_dump_path = 'dump_excel' isExists = os.path.exists(temp_dump_path) if not isExists: os.makedirs(

2020-11-13 10:03:55 4558

原创 mac sudo命令报错完美解决方法

sudo命令报错:sudo: /usr/local/bin/sudo must be owned by uid 0 and have the setuid bit set尝试了chown和设置用户组等网上的各种方法有用的方法是:open -e ~/.bash_profile新增:export PATH="/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/usr/X11/bin"保存后source .bash_profile大功告成!!

2020-10-19 18:37:18 2133

原创一种通用的模型输出重要因子的方法

在机器学习中有些算法会通过coef_或feature_importance输出因子重要性, 但有些算法不提供因子重要性的输出, 比如bp神经网络, SVM非线性核算法等, 在此提供一种通用的输出重要因子的方法, 适用于任一支持预测结果的模型中心思想:通过这种对训练集变量的随机重新排序，通过指定模型进行预测, 与原预测结果进行比对;由于混排生成的数据破坏了原数据规律, 不再适用于原算法, 因此预测表现变差, 越重要的变量混排导致更高的错误率（高错误率=高重要性）;通过遍历训练集的因子混排预测,

2020-09-17 11:26:29 545

转载 Linux下后台运行python程序，并输出日志文件

https://blog.csdn.net/jiahao1186/article/details/89537943

2020-09-16 14:42:53 266

原创 Linux shell命令汇总

添加开机自启动cp restart.sh /etc/profile.d/编辑start stop restart shell命令文件start.shROOT_DIR='/home/geek/opt/xinxiang_ai_new'#restart nginxsudo /usr/local/nginx/sbin/nginx -s stopsudo /usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.confday..

2020-09-16 11:46:19 94

原创 python连接mysql密码过期报错

标题报错信息:Your password has expired. To log in you must change it using a client that supports expired passwor解决方法:select host,user,password_expired,account_locked from mysql.user;update mysql.user set password_expired=‘N’;flush privileges;...

2020-09-02 11:04:33 153

原创使用mac远程Linux操作

ssh 账户@ip -P 端口号 #登录 cd ~ llscp -P 端口号文件名账户@ip:路径/ #远程拷贝文件到linuxpython 文件名 #执行py文件

2020-07-13 10:14:05 130

原创后端开发入门

目录数据传输:前后端数据传输方式:使用postman测试端口:调用需要登陆情况下的接口:数据传输:JSON(JavaScript Object Notation) : 一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。完全独立于语言的文本格式, 是一种理想的数据交换语言前后端数据传输方式:HTTP的请求方法：GET 查看; 向数据库索取数据 PUT 更新; 向服务器端发送数据, 改变信息, 用于修改数据内容, 类似update; 作用在

2020-06-10 14:29:08 487

原创数据探索性分析

目录导库载入数据载入训练集测试集数据简略观察数据(head,shape)数据总览数据相关统计量(describe)数据类型(info)判断数据缺失和异常异常值检测(nan)查看预测值分布总体分布概况(无界约翰逊分布等)查看skewness, kurtosis查看预测值具体频数类别特征(unique分布)数字特征数字特征分析相关性分...

2020-04-07 15:20:56 1358

原创 mac mysql操作整理

mysqladmin -uroot password [password] # 设置初始密码/usr/local/MySQL/bin/mysql -u root -p # 输入设置的初始密码进入mysqlshow databases; use db_demo1; # 使用数据库db_demo1show tables; # 显示db_demo1的所有表解决OSError...

2020-04-01 17:25:17 100

原创 sklearn 绘制学习曲线(模型状态评估)

不同训练集大小，模型在训练集和验证集上的得分变化曲线

2020-03-27 17:24:08 2575

原创 sklearn 样本不均衡问题

目录过采样欠采样样本分布不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖于有限的数据样本而导致过拟合的问题，当模型应用到新的数据上时，模型的准确性和鲁棒性将很差。抽样是解决样本分布不均衡相对简单且常用的方法，包括过采样和欠采样两种。过采样和欠采样更适合大数据分布不均衡的情况，尤其是第一种（过采样）方法应用更加广泛。...

2020-03-27 15:47:57 4838

原创 sklearn 模型评价: 回归分类评价指标及划分数据集

使用sklearn划分数据集及常规分类回归问题的评价指标

2020-03-27 14:25:31 2160

原创机器学习算法-集成学习

概念: 通过构建并结合多个模型来共同完成学习任务目的: 通过集成, 提高多个子学习器的模型泛化能力流程: 1. 构建多个子学习器 2. 使用某种集成策略将模型集成 3. 完成学习任务子学习器筛选原则: 1. 每个子学习器都要有一定的准确性 2. 子学习器之间要保持相对独立性和多样性学习策略:Bagging: 并行式集成学习基本原理: 同时训练多个子学习器, 最后以投...

2020-03-27 11:20:48 165

原创导入指定文件夹下的py文件

导入*/Users/xinran/lxr_pyfile*下的A.py文件import syssys.path.append(r'/Users/xinran/lxr_pyfile')import AA.func()

2020-02-24 16:32:50 496

原创 SMTP服务: python发送纯文本邮件&附件(pdf,txt,zip,img)

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Thu Feb 20 16:55:40 2020@author: xinran"""import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerfrom ema...

2020-02-21 15:46:08 2457

原创 Flask项目: Flask_Excel的使用

安装: pip install Flask_Excel# -*- coding: utf-8 -*-from flask import Flask, request, jsonifyimport flask_excel as excelapp = Flask(__name__)@app.route("/upload", methods=['GET', 'POST'])def u...

2020-02-18 16:35:46 1644

转载 Flask项目: 上传图片文件并展示

原博见: https://blog.csdn.net/qq_26906345/article/details/91044081在页面上显示: https://blog.csdn.net/dcrmg/article/details/81987808

2020-02-18 12:51:07 1298

原创 Flask项目: 蓝本

##蓝图:蓝图的作用就是让我们的flask项目更加模块化,结构更加清晰.可以将相同模块的视图函数放在同一个蓝图下,同一个文件中,方便管理基本语法在蓝图文件中导入Blueprint: ‘from flask import Blueprint在主app文件中注册蓝图:from blueprints.user import user_bpapp.regist_blueprint(use...

2020-02-05 15:00:58 214

原创字符串前 r' ', b' ', u' ', f' ' 的含义

r去除转义字符b返回bytes 类型, 服务器和浏览器只认bytes 类型数据u以 Unicode 格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码f在字符串内支持大括号内的python表达式...

2020-01-19 13:52:59 207

原创 Flask web项目(8): 静态文件

静态文件(static files): 图片, CSS文件, JavaScript脚本等标题创建static文件夹保存静态文件$ mkdir static生成静态文件URL通过Flask提供的 url_for( ) 函数来生成, 在模版中直接使用添加Favicon:index.html:<head> ... <link rel="icon" hre...

2020-01-17 17:13:22 217

原创运用公开住宅出租挂牌数据进行住宅租金预测

租金预测案例学习:数据来源：上海在租房源信息时间节点：2019年7月17日数据集包括在线租房源信息及其基本情况属性信息：楼盘名称；租赁方式；面积；朝向；房租；城市；区域；街道或片区；地址；公交站等学习目标：1）探索查看真实房源数据，找一找数据存在哪些问题？要求：① 读取一个真实房源的数据表② 查看已有的数据存在哪些问题，确认数据应该如何清洗2）针对数据存在的问题，应该采取怎么...

2020-01-15 11:29:38 192

原创 python开启文件服务器

python -m SimpleHTTPServer 8081ctrl+c退出服务

2020-01-14 14:02:22 742

原创 pip Read timed out报错解决方案

pip --default-timeout=100 install 第三方包

2020-01-10 15:09:44 161

原创 Flask web项目(7): 将表单数据发送到模板

实现提交表单功能student.html<html> <body> <form action = "http://0.0.0.0:5000/result" method = "POST"> <p>Name <input type = "text" name = "Name" /><...

2020-01-10 10:57:14 247 2

原创 Flask web项目(6): 使用flask模板

继续学习flask模板:如果用户在网站中注册了一个新账户。用户在表单中输入电子邮件地址和密码，然后点击提交按钮。服务器接收到包含用户输入数据的请求，然后 Flask 把请求分发到处理注册请求的视图函数。这个视图函数需要访问数据库，添加新用户，然后生成响应回送浏览器。这两个过程分别称为业务逻辑和表现逻辑。把业务逻辑和表现逻辑混在一起会导致代码难以理解和维护。假设要为一个大型表格构建 ...

2020-01-09 10:42:30 597

原创 Flask web项目(5): http协议

默认情况下，Flask路由响应GET请求。但是，可以通过为route()装饰器提供方法参数来更改此首选项。下面演示在URL路由中使用POST方法:首先创建一个HTML表单，并使用POST方法将表单数据发送到URL<!DOCTYPE html><html> <body> <form action = "http://0.0....

2020-01-08 15:16:45 508

原创 Flask web项目(4): route()装饰器

Flask中的route()装饰器用于将URL绑定到函数。例如：@app.route(‘/hello’)def hello_world(): return ‘hello world’在这里，URL ‘/ hello’ 规则绑定到hello_world()函数。因此，如果用户访问http：// localhost：5000 / hello URL，hello_world()函数的输出...

2020-01-08 14:43:07 726

原创 Flask web项目(3): pipenv 使用基本命令

创建pipenv　　pipenv启动pipenv　　pipenv shell(为存在虚拟环境可自动创建)退出pipenv　　exit查找所有安装包　　piplist环境内包的依赖展示　　pipenv graph查找虚拟环境的路径　　pipenv --venv卸载安装包　　pipenv uninstall...

2020-01-07 14:54:24 231

原创 python装饰器

装饰器可以把一些常用的业务逻辑分离，提高程序可重用性，降低耦合度，提高开发效率下面代码中的函数 my_decorator() 就是一个装饰器，它把真正需要执行的函数 greet() 包裹在其中，并且改变了它的行为，但是原函数 greet() 不变。def my_decorator(func): def wrapper(): print('wrapper of decor...

2020-01-07 10:46:16 87

原创 Flask web项目(2): 使用Pycharm创建第一个项目--hello world

打开pycharm新创建一个项目(我创建在了之前虚拟环境设置的目录下, 第一次搞这个也不知道是不是二者必须一致)打开偏好设置,设置指定环境(这里也不太懂)新建hello.py代码:from flask import Flask#from flask import requestapp = Flask(__name__)@app.route('/')def ind...

2020-01-07 00:12:27 872 2

原创 Flask web项目(1): 创建虚拟环境+安装flask

安装pipenv包pip install pipenv我们将使用 Pipenv 来创建和管理虚拟环境、以及在虚拟环境中安装和卸载依赖包。它集成了 pip 和 virtualenv，可以替代这两个工具的惯常用法。另外，它还集成了 Pipfile，它是新的依赖记录标准，使用 Pipfile 文件记录项目依赖，使用 Pipfile.lock 文件记录固定版本的依赖列表。这两个文件替代了手动通过...

2020-01-06 16:27:13 457

原创 sklearn 参数搜索

参数类型一般参数：模型通过最小化损失函数自动求解的参数超参数：不能通过模型对数据进行学习而求解的参数，比如神经网络的层数、正则系数的alpha值等参数搜索：超参数的搜索：提前设置好参数可以选择的候选值，然后根据不同参数组合对于模型泛化能力的贡献，选取最佳的超参数组合。参数搜索的方法：GridSearchCV，基于交叉验证的网格搜索法：将要搜索的参数候...

2020-01-06 09:55:19 731

原创集成学习

2020-01-03 16:03:16 105

原创将字典转为dataframe问题及实例

#如果字典value只有一个元素df = pd.DataFrame({'A':0}) # 直接将字典放进去会报错'''ValueError: If using all scalar values, you must pass an index'''#解决方法1: value改为列表df1 = pd.DataFrame({'A':[0]}) #解决方法2:制定indexdf2 = pd...

2020-01-03 11:54:39 934

原创 random使用方法及实例

import randomprint( random.randint(1,10) ) # 产生 1 到 10 的一个整数型随机数 print( random.random() ) # 产生 0 到 1 之间的随机浮点数print( random.uniform(1.1,5.4) ) # 产生 1.1 到 5.4 之间的随机浮点数，区间可以不...

2020-01-03 11:20:12 954

原创 sklearn 增维: PolynomialFeatures

增维也叫特征扩展处理目的：解决模型欠拟合捕捉自变量与应变量之间的非线性关系常见处理方法多项式拓展：1）假设数据集中包含自变量a、b2）如果对自变量做二项式扩展3）自变量集从两个变量扩展为5个变量（a、b、a×a、b×b、a×b）from sklearn.preprocessing import PolynomialFeatures# 准备筛选数据x = df[['c...

2020-01-02 17:08:45 334

原创 sklearn 降维:PCA & SelectFromModel

处理目的：降低不相关特征对于模型准确性的干扰降低模型复杂度，提高模型泛化能力减少建模特征，提高模型训练与预测速度处理方法：基于数据理解，直接删除使用主成分分析法（PCA）对特征进行变换使用机器学习模型对特征进行筛选常用判断标准：保留数据的解释方差累计百分比达到95%的所有特征# 载入sklearn里的pca模块from sklearn.decomposition i...

2020-01-02 17:01:19 435

原创 [python数据处理] 共线性处理

特征间共线性：两个或多个特征包含了相似的信息，期间存在强烈的相关关系常用判断标准：两个或两个以上的特征间的相关性系数高于0.8。共线性的影响：降低运算效率降低一些模型的稳定性弱化一些模型的预测能力处理方式：删除：一组相互共线的特征中只保留与y相关性最高的一个变换：对共线的两列特征进行求比值、求差值等计算# 特征工程的演示import ...

2020-01-02 16:39:57 1887