python
文章平均质量分 55
soda東風
写写博记录学习成果
展开
-
python 给前端传输文件流
python后端传输文件流给前端已供用户下载到本地方式一:先将dataframe转为csv文件def data_to_excel(data, file_name): # 生成excel暂存目录 os.chdir('/root/xinxiang') temp_dump_path = 'dump_excel' isExists = os.path.exists(temp_dump_path) if not isExists: os.makedirs(原创 2020-11-13 10:03:55 · 4583 阅读 · 0 评论 -
python连接mysql密码过期报错
标题报错信息:Your password has expired. To log in you must change it using a client that supports expired passwor解决方法:select host,user,password_expired,account_locked from mysql.user;update mysql.user set password_expired=‘N’;flush privileges;...原创 2020-09-02 11:04:33 · 163 阅读 · 0 评论 -
使用mac远程Linux操作
ssh 账户@ip -P 端口号 #登录 cd ~ llscp -P 端口号 文件名 账户@ip:路径/ #远程拷贝文件到linuxpython 文件名 #执行py文件原创 2020-07-13 10:14:05 · 144 阅读 · 0 评论 -
mac mysql操作整理
mysqladmin -uroot password [password] # 设置初始密码/usr/local/MySQL/bin/mysql -u root -p # 输入设置的初始密码进入mysqlshow databases; use db_demo1; # 使用数据库db_demo1show tables; # 显示db_demo1的所有表解决OSError...原创 2020-04-01 17:25:17 · 109 阅读 · 0 评论 -
机器学习算法-集成学习
概念: 通过构建并结合多个模型来共同完成学习任务目的: 通过集成, 提高多个子学习器的模型泛化能力流程: 1. 构建多个子学习器 2. 使用某种集成策略将模型集成 3. 完成学习任务子学习器筛选原则: 1. 每个子学习器都要有一定的准确性 2. 子学习器之间要保持相对独立性和多样性学习策略:Bagging: 并行式集成学习基本原理: 同时训练多个子学习器, 最后以投...原创 2020-03-27 11:20:48 · 179 阅读 · 0 评论 -
导入指定文件夹下的py文件
导入*/Users/xinran/lxr_pyfile*下的A.py文件import syssys.path.append(r'/Users/xinran/lxr_pyfile')import AA.func()原创 2020-02-24 16:32:50 · 506 阅读 · 0 评论 -
SMTP服务: python发送纯文本邮件&附件(pdf,txt,zip,img)
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Thu Feb 20 16:55:40 2020@author: xinran"""import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerfrom ema...原创 2020-02-21 15:46:08 · 2482 阅读 · 0 评论 -
字符串前 r' ', b' ', u' ', f' ' 的含义
r去除转义字符b返回bytes 类型, 服务器和浏览器只认bytes 类型数据u以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码f在字符串内支持大括号内的python表达式...原创 2020-01-19 13:52:59 · 214 阅读 · 0 评论 -
运用公开住宅出租挂牌数据进行住宅租金预测
租金预测案例学习:数据来源:上海在租房源信息时间节点:2019年7月17日数据集包括在线租房源信息及其基本情况属性信息:楼盘名称;租赁方式;面积;朝向;房租;城市;区域;街道或片区;地址;公交站等学习目标:1)探索查看真实房源数据,找一找数据存在哪些问题?要求:① 读取一个真实房源的数据表② 查看已有的数据存在哪些问题,确认数据应该如何清洗2)针对数据存在的问题,应该采取怎么...原创 2020-01-15 11:29:38 · 201 阅读 · 0 评论 -
python开启文件服务器
python -m SimpleHTTPServer 8081ctrl+c退出服务原创 2020-01-14 14:02:22 · 751 阅读 · 0 评论 -
pip Read timed out报错解决方案
pip --default-timeout=100 install 第三方包原创 2020-01-10 15:09:44 · 173 阅读 · 0 评论 -
python装饰器
装饰器可以把一些常用的业务逻辑分离,提高程序可重用性,降低耦合度,提高开发效率下面代码中的函数 my_decorator() 就是一个装饰器,它把真正需要执行的函数 greet() 包裹在其中,并且改变了它的行为,但是原函数 greet() 不变。def my_decorator(func): def wrapper(): print('wrapper of decor...原创 2020-01-07 10:46:16 · 96 阅读 · 0 评论 -
Flask web项目(2): 使用Pycharm创建第一个项目--hello world
打开pycharm新创建一个项目(我创建在了之前虚拟环境设置的目录下, 第一次搞这个也不知道是不是二者必须一致)打开偏好设置,设置指定环境(这里也不太懂)新建hello.py代码:from flask import Flask#from flask import requestapp = Flask(__name__)@app.route('/')def ind...原创 2020-01-07 00:12:27 · 881 阅读 · 2 评论 -
sklearn 参数搜索
参数类型一般参数:模型通过最小化损失函数自动求解的参数超参数:不能通过模型对数据进行学习而求解的参数,比如神经网络的层数、正则系数的alpha值等参数搜索:超参数的搜索:提前设置好参数可以选择的候选值,然后根据不同参数组合对于模型泛化能力的贡献,选取最佳的超参数组合。参数搜索的方法:GridSearchCV,基于交叉验证的网格搜索法:将要搜索的参数候...原创 2020-01-06 09:55:19 · 747 阅读 · 0 评论 -
集成学习
原创 2020-01-03 16:03:16 · 117 阅读 · 0 评论 -
将字典转为dataframe问题及实例
#如果字典value只有一个元素df = pd.DataFrame({'A':0}) # 直接将字典放进去会报错'''ValueError: If using all scalar values, you must pass an index'''#解决方法1: value改为列表df1 = pd.DataFrame({'A':[0]}) #解决方法2:制定indexdf2 = pd...原创 2020-01-03 11:54:39 · 949 阅读 · 0 评论 -
random使用方法及实例
import randomprint( random.randint(1,10) ) # 产生 1 到 10 的一个整数型随机数 print( random.random() ) # 产生 0 到 1 之间的随机浮点数print( random.uniform(1.1,5.4) ) # 产生 1.1 到 5.4 之间的随机浮点数,区间可以不...原创 2020-01-03 11:20:12 · 968 阅读 · 0 评论 -
sklearn 增维: PolynomialFeatures
增维也叫特征扩展处理目的:解决模型欠拟合捕捉自变量与应变量之间的非线性关系常见处理方法多项式拓展:1)假设数据集中包含自变量a、b2)如果对自变量做二项式扩展3)自变量集从两个变量扩展为5个变量(a、b、a×a、b×b、a×b)from sklearn.preprocessing import PolynomialFeatures# 准备筛选数据x = df[['c...原创 2020-01-02 17:08:45 · 350 阅读 · 0 评论 -
sklearn 降维:PCA & SelectFromModel
处理目的:降低不相关特征对于模型准确性的干扰降低模型复杂度,提高模型泛化能力减少建模特征,提高模型训练与预测速度处理方法:基于数据理解,直接删除使用主成分分析法(PCA)对特征进行变换使用机器学习模型对特征进行筛选常用判断标准:保留数据的解释方差累计百分比达到95%的所有特征# 载入sklearn里的pca模块from sklearn.decomposition i...原创 2020-01-02 17:01:19 · 445 阅读 · 0 评论 -
[python数据处理] 共线性处理
特征间共线性:两个或多个特征包含了相似的信息,期间存在强烈的相关关系常用判断标准:两个或两个以上的特征间的相关性系数高于0.8。共线性的影响: 降低运算效率 降低一些模型的稳定性 弱化一些模型的预测能力处理方式: 删除:一组相互共线的特征中只保留与y相关性最高的一个 变换:对共线的两列特征进行求比值、求差值等计算# 特征工程的演示import ...原创 2020-01-02 16:39:57 · 1906 阅读 · 0 评论 -
sklearn 纠偏
正态分布:数据呈现对称的钟形分布左偏态:样本大量集中在均值右边(均值偏到了左边)右偏态:样本大量集中在均值左边(均值偏到了右边)处理方法:右偏态:常用对数函数处理左偏态:常用指数函数处理通用变换方法:以降低数据的偏态系数为目标,使得数据分布更加接近正太分布的变换方法yeo-johnson 变换:可以处理包含正数、负数和零的变量box-cox变换:只能处理数值皆为正数的变量#...原创 2020-01-02 16:09:45 · 533 阅读 · 0 评论 -
sklearn 标准化
标准化目的:去除数据量纲的影响提高模型的解释性加快模型收敛速度标准化的方法:中心化:减去均值再除以标准差01标准化:减去最小值再除以最大值与最小值的差# sklearn 中标准化的方法from sklearn.preprocessing import StandardScaler #中心化from sklearn.preprocessing import MinMaxSc...原创 2020-01-02 16:05:08 · 941 阅读 · 0 评论 -
dataframe 离群值处理
离群值:远离数据主要部分的样本(极大值或极小值)处理方式:删除:直接删除离群样本填充样本:使用box-plot定义变量的数值上下界,以上界填充极大值,以下界填充最小值# 查看房价的离群情况df['average_price'].hist()plt.show()df[['average_price']].boxplot()plt.show()# 根据箱线图的上下限进...原创 2020-01-02 15:52:47 · 5510 阅读 · 2 评论 -
sklearn 缺失值处理
df = pd.read_excel('real_estate_sample.xlsx')df.isna().sum()原创 2020-01-02 14:40:19 · 1446 阅读 · 1 评论 -
python方向
原创 2019-12-31 16:31:42 · 140 阅读 · 0 评论 -
python数据结构和算法
常用算法:穷举法 - 又称为暴力破解法,对所有的可能性进行验证,直到找到正确答案。贪婪法 - 在对问题求解时,总是做出在当前看来 最好的选择,不追求最优解,快速找到满意解。分治法 - 把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题,直到可以直接求解的程度,最后将子问题的解进行合并得到原问题的解。回溯法 - 回溯法又称为试探法,按选优条件向前搜索,...原创 2019-12-31 11:47:32 · 141 阅读 · 0 评论 -
python处理办公文档的模块
处理Excel电子表格Python的openpyxl模块让我们可以在Python程序中读取和修改Excel电子表格,当然实际工作中,我们可能会用LibreOffice Calc和OpenOffice Calc来处理Excel的电子表格文件,这就意味着openpyxl模块也能处理来自这些软件生成的电子表格。关于openpyxl的使用手册和使用文档可以查看它的官方文档。处理Word文档利用pyt...原创 2019-12-31 11:15:00 · 550 阅读 · 0 评论 -
正则表达式汇总整理
正则表达式根据包: re字符匹配:re.match(pattern, string, flags=0)group()/group(0) 返回成功匹配的内容group(num) 返回成功匹配的内容中第num个小组的字符groups() 返回包含所有小组字符串的元祖常用模式匹配位置???? ^ 匹配字符串开头???? $ 匹配字符串末尾匹配内容???? . 匹配除 “\n” 之...原创 2019-12-31 10:44:15 · 93 阅读 · 0 评论 -
集合使用汇总
集合: 和数学上定义一致, 不允许有重复元素,可以进行交集,并集,差集等计算创建集合# 创建集合的字面量语法set1 = {1, 2, 3, 3, 3, 2}print(set1)print('Length =', len(set1))# 创建集合的构造器语法(面向对象部分会进行详细讲解)set2 = set(range(1, 10))set3 = set((1, 2, 3, 3...原创 2019-12-30 13:44:48 · 117 阅读 · 0 评论 -
建立XML数据库系统
XML具有良好的结构化数据格式, 可以清晰地记录存在关系的各种记录, 并可以随时发送给相关方读取数据进行各种业务应用.设计思想采用数据库设计思路, 设计建议XML数据库, 实现对相关数据的保存和读取import sysclass BuildNewXML(): def __init__(self,filename=None): self.filename=f...原创 2019-12-27 14:30:03 · 424 阅读 · 0 评论 -
函数和类模块管理
为什么要进行模块管理自定义的函数如果需要被其他代码文件调用, 或需要通过共享, 让项目组其他程序员所用, 或需要正式的商业发布, 就需要把函数代码放到一个可以共享的地方——通过独立的函数模块(Module)文件, 共享给其他代码文件调用流程:建立函数模块调用函数模块1) import 函数模块名注意: 主程序和函数模块需要在同一个文件夹下, 否则报错2) from 模块名 imp...原创 2019-12-27 14:05:31 · 121 阅读 · 0 评论 -
mac plt显示中文解决方法
下载SimHei字体,然后放到mac的matplotlib的字体库,然后改配置。。。无效且麻烦在网上搜索到了好用的方法:plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']永久更改方法:找到字体路径(跟其他教程一样)进入pythonimport matplotlibprint(matplotlib.matplotlib_fna...原创 2019-12-27 13:30:24 · 2396 阅读 · 6 评论 -
html文件转pdf
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Wed Nov 13 15:54:02 2019@author: xinranhtml文件转pdf"""import pdfkithtmlpath='/Users/xinran/Downloads/Document/答案代码_练习07中国城市资本流动问题探索....原创 2019-12-26 11:51:52 · 99 阅读 · 0 评论 -
拆分csv大文件
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Thu Dec 26 10:43:59 2019@author: xinran"""path='/Users/xinran/01 网易云课堂/01 大鹏/考核/考核07/'file_name = 'blibli.csv'with open(path+file_n...原创 2019-12-26 11:00:47 · 1553 阅读 · 1 评论 -
dataframe 分组行转列
def group(data,columns): #columns: 分组依据 file = '/Users/xinran/MES/by_id/' dg = data.groupby(columns) for key in dg.groups: data_p = dg.get_group(key) data1 = data_p.pivot_...原创 2019-12-26 09:32:53 · 1440 阅读 · 0 评论 -
分块读取大文件
读取所有列的话cols = alldef r_file(file,cols): list1=[] for part in pd.read_csv(file,usecols=cols,chunksize=50000): list1.append(part) df=pd.concat(list1) del list1 del pa...原创 2019-11-20 11:38:41 · 689 阅读 · 0 评论 -
mac selenium webdriver 安装问题
静态网页可以requests和BeautifulSoup获取元素数据但是要获取动态网页数据就需要使用selenium webdriver了谨以此文记录一下我的爬虫步骤以及遇到的问题from selenium import webdriverimport time driver = webdriver.Chrome()首先是使用webdriver.Chrome()出现报错:...原创 2019-08-08 09:21:36 · 636 阅读 · 0 评论