python
文章平均质量分 85
huangqihao723
这个作者很懒,什么都没留下…
展开
-
Python多进程
多进程的目的还是为了提升cpu的处理效率multiprocessing Process start 启动进程 join 等待进程结束 案例一. 对列表分段求和 采用多进程 from multiprocessing import Process ,Pool import timeimport os import sys sys.path.append("/mnthis/qihao.huang/tools/") from utils impor...原创 2022-03-23 11:32:01 · 716 阅读 · 0 评论 -
spark机器学习-常见函数使用(pyspark版)
参考spark机器学习 基于pycharm进行开发,pyspark安装见上篇博文 数据集包含的字段为:id,年龄,性别,职业,邮编from pyspark import SparkContext,SparkConf#conf = SparkConf().setAppName("test").setMaster("local")sc = SparkContext(conf=conf)...原创 2020-04-22 11:07:14 · 239 阅读 · 0 评论 -
MAC本地搭建spark
pyspark安装pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple求和from pyspark import SparkContext,SparkConf#conf = SparkConf().setAppName("test").setMaster("local")sc = SparkConte...原创 2020-04-21 22:18:29 · 375 阅读 · 0 评论 -
Python发邮件的关键点
话不多说,能否发送成功,主要在于密码设置是否正确!这里拿163邮箱来说,需要用到安全密码,而不是邮箱的登录密码:安全密码如何获得?结束!放上代码,具体参数解释的很详细了~import smtplibfrom email.mime.text import MIMETextfrom email.header import Headerdef send_mail(conte...原创 2020-04-07 21:15:49 · 238 阅读 · 0 评论 -
pytorch-利用LSTM做股票预测
1.获取数据import tushare as ts# 获取代号为000300的股票价格cons=ts.get_apis()df=ts.bar('000001', conn=cons, asset='INDEX', start_date='2018-01-01', end_date='')2. 对于获取的数据按日期进行升序排列,因为我们要通过历史的情况预测未来的情况df=...原创 2020-04-05 01:01:34 · 15187 阅读 · 20 评论 -
Pytorch-基于colab对中文评论使用LSTM进行情感分析
之前由于在本机mac中训练验证码识别,导致mac后来的使用有点卡,另外囊中羞涩,所以考虑用google的colab进行训练关于google的colab的使用,一般包含两个方面: google的云盘:https://drive.google.com/ colab:https://colab.research.google.com/notebooks/intro.ipynb ...原创 2020-04-01 15:05:18 · 1342 阅读 · 0 评论 -
Pytorch-识别法院失信、执行验证码图片
爬虫的时候遇到一些图片形式的验证码,比如数字字母组合,通过CNN我们可以训练一个模型,进行识别;下面是针对法院失信、执行的验证码,准确率达到90%+,基本够用。先看下效果吧!import torchfrom torch.autograd import Variableimport numpy as npfrom PIL import Imagefrom torchvisi...原创 2020-04-01 13:43:54 · 377 阅读 · 3 评论 -
Python中异常值,单一值,重复值,缺失值的处理
重复值,输入为DataFrame,检测是否有重复的行以及删除重复的行class Duplicated(): def __init__(self,df,subset=None,keep='first',inplace=False): self.subset=subset if isinstance(self.subset, list) and len...原创 2020-04-01 12:20:54 · 1100 阅读 · 0 评论 -
Python递归解析同盾返回的json数据
{ '_index': 'td_fqz_data', '_type': '_doc', '_id': 'WF2020022014185100155885', '_score': None, '_source': { 'gmt_create': '2020-02-20 14:18:51', 'id_number': '33049319920423****', 'result_desc': { 'ANTIFRAUD': { 'final_score': 237, 'r原创 2020-03-27 00:22:12 · 702 阅读 · 0 评论 -
Python生成pmml文件
什么是pmml predictive model markup language 预测模型标记语言 1997年7月提出 xml格式 通用性(跨平台)、规范性(规范化模型描述语言)、异构性(xml本身的异构性)、独立性(独立于数据挖掘工具和)、易用性(编辑xml文档) fit / transform / fit_transform的区别 fit:从数据中生成参数 tra...原创 2020-03-26 23:38:08 · 3783 阅读 · 1 评论 -
pytorch的Tensor基础操作
一.数据类型64位整型:torch.LongTensor32位整型:torch.IntTensor16位整型:torch.ShortTensor64位浮点型:torch.DoubleTensorimport torchimport numpy as npfrom torch.autograd import Variablex0=torch.tensor([1,2,3,4]...原创 2019-12-25 16:46:28 · 280 阅读 · 0 评论 -
pytorch实现逻辑回归训练
! 比较简单,直接上代码import torchimport torch.nn as nnimport torch.optimfrom torch.autograd import Variablefrom sklearn import datasetsimport numpy as np#### 读取iris数据iris=datasets.load_iris()x,y...原创 2019-12-25 14:53:16 · 448 阅读 · 1 评论 -
python与mysql、hbase、mongodb等数据源交互
一.ssh登录堡垒机 import paramikossh=paramiko.SSHClient()ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy()) # 跳过了远程连接中选择'是'的环节,ssh.connect('192.168.19.****', 22, 'app', '****')stdin, stdo...原创 2019-04-01 18:27:48 · 924 阅读 · 0 评论 -
利用fasttext对短信内容进行分类
一.样本说明:共1405506条记录,其中逾期的为486996条记录,非逾期的为486996条 包含两个字段 tag (标识是否逾期) ,message(短信内容) 实际训练样本(non_overdue: 641065, overdue: 340783) 实际测试样本(non_overdue: 274660, overdue: 146132) 目标:根据短信内容,预测类别是否逾期二...原创 2019-04-10 15:50:13 · 399 阅读 · 0 评论 -
梯度下降(BGD/SGD/MBGD)的实现
梯度下降法,也称最速下降法,用当前位置负梯度作为搜索方向,靠近目标值的时候收敛速度会下降;如果为凸函数,则目标值为全局最优值,否则,会陷入局部最优的情况 import numpy as npfrom random import sample#y_hat=theta1*x1+theta2*x2+theta3*x3x = np.array([[...原创 2018-01-26 13:40:50 · 1473 阅读 · 1 评论 -
统计-均匀分布生成其他分布的两种方法
一.求逆法: 二.舍弃法: 三.python实现,通过从均匀分布中抽样,模拟其他分布的样本# 求逆法,需要原函数的逆函数比较容易求得import numpy as npimport matplotlib.pyplot as pltuniform_data=np.linspace(0,1000,10000)# 针对连续型密度函数 3*x^2 ...原创 2018-09-25 14:46:39 · 7984 阅读 · 1 评论