DM ML DL
文章平均质量分 53
DM ML DL
0x8g1T9E
0x8g1T9E
展开
-
适合小白的几个入门级Python ocr识别库
工作生活中经常会遇到需要提取图片中文字信息的情况,以前都是手动自己把图片里的字敲出来,但随着这几年人工智能技术的愈发成熟,市面上有越来越多的ocr产品了,基本上能大部分正常图片的文字提取需求。当然有时候需要提取文字的图片数量较多或者有某个应用程序编写需求时,就需要借助代码来实现了,这里介绍几个比较适合新手小白的python ocr库,简单实用,可满足绝大多数常规的图片文字提取、验证码识别需求。原创 2023-02-07 11:35:13 · 813 阅读 · 0 评论 -
tensorflow2.x与pytouch的性能比较
tensorflow与pytouch的性能比较。原创 2023-02-04 09:55:53 · 155 阅读 · 0 评论 -
使用Python+Tensorflow的CNN技术快速识别验证码
首先本文教大家如何简单处理验证码,然后介绍了tensorflow的快速安装方式,最后通过实现了CNN下整块验证码的识别,训练集准确率达到99.5%,测试集准确率在40%左右。一开始学习tensorflow是盲目的,不知如何下手,网上的资料都比较单一,为了回报社会,让大家少走弯路,我将详细介绍整个过程。经过比较,我发现10张预测的能有4张准确,这还有待改进,但是整体上还是达到了我的要求。,这个参数控制着过拟合,当我们机器学习速度过快的时候,可以减小该值,让机器遗忘的多一点(像人一样,记得多不一定好,哈哈)。原创 2023-02-03 09:51:32 · 516 阅读 · 0 评论 -
深度学习 -- TensorFlow(项目)验证码生成与识别(多任务学习)
【代码】深度学习 -- TensorFlow(项目)验证码生成与识别(多任务学习)原创 2023-02-03 09:47:57 · 426 阅读 · 0 评论 -
史上最全!用Pandas读取CSV,看这篇就够了
例如,如果comment ='#',则解析header=0的'#empty \ na,b,c \ n1,2,3'会将'a,b,c'视为header。如果为某些或所有列启用了parse_dates,并且datetime字符串的格式都相同,则通过设置infer_datetime_format=True,可以大大提高解析速度,pandas将尝试推断datetime字符串的格式,然后使用更快的方法解析字符串,从而将解析速度提高5~10倍。names用来指定列的名称,它是一个类似列表的序列,与数据一一对应。...原创 2022-08-05 14:41:10 · 27679 阅读 · 0 评论 -
jupyter code和markdown转换 notebook 快捷键
notebook 自带一组快捷键,能提高效率(感 jio 有点要脱离鼠标了)。下面大概总结一下,也方便以后使用。notebook里每一个叫做cell。两种模式Command mode 和 Edit mode。 在一个cell中,按下Enter,进入Edit模式,按下Esc,进入Command 模式运行当前cell,并移动到下一个Cell在一个cell中(在command模式下), Shift + Enter 创建Cell 在一个cell中(在command模..原创 2021-12-03 12:15:40 · 647 阅读 · 0 评论 -
DataFrame基本函数整理(全)
构造函数DataFrame([data, index, columns, dtype, copy]) #构造数据框属性和数据DataFrame.axes #index: 行标签;columns: 列标签DataFrame.as_matrix([columns]) #转换为矩阵DataFrame.dtypes #返回数据的类型DataF...原创 2021-12-03 12:12:34 · 13140 阅读 · 0 评论 -
Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found
cdh或者hdp增加kerberos验证后,python链接大数据集群的调用都需要增加认证这一个环节:如下报错的解决方案:thriftpy.transport.TTransportException: TTransportException(type=1, message="Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: No worthy mechs found...原创 2021-07-07 15:27:05 · 1437 阅读 · 1 评论 -
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近开始研究起对抗生成网络(GANs),用到了交叉熵,发现自己对交叉熵的理解有些模糊,不够深入。遂花了几天的时间从头梳理了一下相关知识点,才算透彻的理解了,特地记录下来,以便日后查阅。信息论交叉熵是信息论中的一个概念,要想了解交叉熵的本质,需要先从最基本的概念讲起。1 信息量首先是..原创 2021-07-05 09:32:50 · 247 阅读 · 0 评论 -
linux 安装jupyter教程 自定义配置 jupyter忘记密码重置密码
第一步 检查Python环境python -V第二步 通过pip安装jupyterpip install jupyter 第三步 生成jupyter配置文件#root客户:jupyter notebook --generate-config --allow-root#非root客户jupyter notebook --generate-config值得一提的是:windows环境下,并没有jupyter_notebook_config.py这个配置文件,怎么..原创 2021-04-28 11:25:51 · 3616 阅读 · 0 评论 -
开源量化框架Catalyst中文教程(2) -- 安装 官网教材
InstallTo get started with Catalyst, you will need to install it in your computer. Like any other piece of software, Catalyst has a number of dependencies (other software on which it depends to run) that you will need to install, as well. We recommend us原创 2020-10-08 14:03:43 · 9501 阅读 · 0 评论 -
window 和linux 在Python中安装Talib包,python,talib 亲测采坑 2020/10
python 安装talib包python 安装talib包 windows下 python 安装talib 包 ubuntu 下 python 安装talib 包 编译安装talib 库 复制文件 安装 python3-dev 安装ta-lib python 安装talib包talib 是Python金融量化的高级库,涵盖了150多种股票、期货交易软件中常用的技术分析指标,如MACD、RSI、KDJ、动量指标、布林带等等。windows下 p...原创 2020-10-08 09:27:46 · 9044 阅读 · 1 评论 -
python ETL工具 pyetl
pyetl是一个纯python开发的ETL框架, 相比sqoop, datax 之类的ETL工具,pyetl可以对每个字段添加udf函数,使得数据转换过程更加灵活,相比专业ETL工具pyetl更轻量,纯python代码操作,更加符合开发人员习惯安装pip3 install pyetl使用数据库表之间数据同步from pyetl import Task, DatabaseReader, DatabaseWriterreader = DatabaseReader("sqlite:///db1..原创 2020-07-21 18:32:44 · 8536 阅读 · 0 评论 -
kettle 入门教程 ETL 基础 介绍
kettle 介绍kettle是一个ETL(Extract, Transform and Load)数据抽取、转换、载入工具,ETL工具在数据仓库项目使用非常频繁,kettle也可以应用在以下一些场景: 在不同应用或数据库之间整合数据 把数据库中的数据导出到文本文件 大批量数据装载入数据库 数据清洗 集成应用相关项目是个使用kettle使用非常简单,通过图形界面设计实现做什么业务,无需写代码去实现,因此,kettle是以面向元数据来设计kettle支持..原创 2020-07-21 18:26:54 · 8251 阅读 · 0 评论 -
kaggle比赛如何冲进前0.2%?秘诀是什么, 求高手指点 现在最好成绩 TOP 6%
原创 2020-07-16 16:18:49 · 8043 阅读 · 0 评论 -
python:pandas中dataframe的基本用法汇总
更加详细的内容可以查看:https://blog.csdn.net/hhtnan/article/details/80080240(基本函数整理)https://blog.csdn.net/LY_ysys629/article/details/54428838https://www.cnblogs.com/timotong/p/9678490.html一. DataFrame的创建 创建一个空的dataframe 1 df=pd.DataFram...原创 2020-07-14 13:49:58 · 8827 阅读 · 0 评论 -
各种聚类算法(原理+代码+对比分析)最全总结(二) 转
序言还是要持续总结,持续积累。一、聚类的目标使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。二、聚类算法分类1.基于划分给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。特点:计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法2.基于层次对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案原创 2020-07-07 11:58:30 · 12521 阅读 · 1 评论 -
机器学习的划分:监督学习、非监督学习、强化学习、进化学习 概述 (二)
监督学习(Supervised learning):提供带有正确结果的训练集,基于训练集,算法将归纳(generalization)出“如何正确的响应所有可能的输入”。也称之为”示例学习(learning from examples)”回归(Regression):找到某种函数,使函数曲线的路径尽可能的靠近所有的数据点。分类(Classification):根据训练中不同类(class)的划分,将输入的向量划分到对应的类中去——找到“决策边界(decision boundaries)”。非监...原创 2020-07-07 11:08:38 · 8641 阅读 · 0 评论 -
【聚类&&分类算法】聚类算法和分类算法总结
聚类算法的种类:基于划分聚类算法(partition clustering)k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据 k-modes: K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度 k-prototypes: 结合了K-Means和K-Modes两种算法,能够处理混合型数据 k-medoids: 在迭代过程中选择簇中的某点作为聚点,...原创 2020-07-07 10:37:43 · 8394 阅读 · 0 评论