python
文章平均质量分 79
一个追逐自我的程序员
曾经梦想成为一个优秀的游戏策划,中道转而人工智能
展开
-
用python分析四大名著(一)
项目起因及意义起初在浏览知乎时看见一篇文章觉得很有意思(用Python分析《红楼梦》),此文章较长,题主采用了一系列方法分析红楼梦前八十回和后四十回是否为同一个人所写,虽然题主贴上了部分实现的截图,我就想试着来实现一遍,但由于目前能力有限,一些机器学习算法不够了解,加上python又是刚刚学,所以我打算先结合《Python语言程序设计基础》这本书上的例子—-《三国演义》人物出场统计来作为此系列博客第原创 2017-09-16 09:58:42 · 12083 阅读 · 7 评论 -
结合sklearn的可视化工具Yellowbrick:超参与行为的可视化带来更优秀的实现
Yellowbrick 是一套名为「Visualizers」的视觉诊断工具,它扩展了 Scikit-Learn API 以允许我们监督模型的选择过程。简而言之,Yellowbrick 将 Scikit-Learn 与 Matplotlib 结合在一起,并以传统 Scikit-Learn 的方式对模型进行可视化。可视化器 可视化器(Visualizers)是一种从数据中学习的估计器,其主要目...原创 2018-05-30 12:05:44 · 2094 阅读 · 2 评论 -
纯NumPy代码从头实现简单的卷积神经网络
在某些情况下,使用 ML/DL 库中已经存在的模型可能会很便捷。但为了更好地控制和理解模型,你应该自己去实现它们。本文展示了如何仅使用 NumPy 库来实现 CNN。卷积神经网络(CNN)是分析图像等多维信号的当前最优技术。目前已有很多库可以实现 CNN,如 TensorFlow 和 Keras 等。这种库仅提供一个抽象的 API,因此可以大大降低开发难度,并避免实现的复杂性,不过使用这种库的...原创 2018-05-30 17:13:47 · 4771 阅读 · 1 评论 -
进一步python分析财务报表
前言前面某篇博客已经有了初步分析A股财务报表,这里作为我们工作室答辩作业进一步分析了数据。废话不多说上图。 代码已上传到github上:https://github.com/1qweasdzxc/python - 搜索页面 - 主页面 - 公司评分排名 4.公司筛选页面 虽然页面有点简陋,但是功能还算完整,也算是画了将近5天的成果,帮助自己对于PyQt5库有个...原创 2018-05-30 18:02:00 · 24879 阅读 · 5 评论 -
python分析财务报表
前言其实这也是老师要求我们分析的一个项目,所以记录下分析的过程。 财务大数据作为大数据方向的一个热门方向,如果能学好,对于我们的今后工作是会有很大帮助的,同时目前市场人才需求也是很大的。 实验目的利用python构建财务报表,并进行一些财务分析。实验过程利用python爬虫爬取A股数据报表 这一步是同学做的,写的还不错,实验步骤参考如下链接:Requests...原创 2018-03-25 18:17:58 · 54169 阅读 · 20 评论 -
Keras+Django多次加载model出现错误
TypeError: Cannot interpret feed_dict key as Tensor: Tensor Tensor(“Placeholde r:0”, shape=(3, 3, 3, 10), dtype=float32) is not an element of this graph.这个bug困扰了我很多天,因为每次上传图片都调用一次模型,第二次就会出现这个bug,参考百...原创 2018-06-24 17:16:18 · 2104 阅读 · 1 评论 -
车牌识别web应用
这是我做的车牌识别web应用,算法用的HyperLPER原创 2018-06-30 23:38:40 · 1654 阅读 · 6 评论 -
基于python+selenium+Chrome自动化爬取巨潮资讯网A股财务报表
引言:网页爬虫分为静态网页爬虫和动态网页爬虫,前者是指索要获取的网页内容不需要经过js运算或者人工交互,后者是指获取的内容必须要经过js运算或者人工交互。这里的js运算可能是ajax,人工交互不需要解释了。静态爬虫现在已经很成熟了,借助于python中的urllib和beautifulsoup可以很容易实现,爬到的内容通过python的字符串处理写入数据库,甚至可以通过web形式展...转载 2018-06-26 15:01:43 · 13520 阅读 · 2 评论 -
年度总结---------记录app评论数据预处理
前言好久没更新博客了,由于大多事(主要还是懒0.0)耽误了。今晚,算是我待在学校最后一个晚上了,也是今年最后一篇博客了,以此献给即将过去的2018年。记录记录今年做的一些自认为有意义的事:今年开始我谈了人生中的第一次恋爱 (0.0) ,虽然后来因为各种原因现在分手了,但是算是今年我觉得最有意义的一件事了,至少大学有段恋爱经历,从中也学习了不少。从学校大数据工作室毕业,算是入门了大数据的大...原创 2019-05-15 20:46:30 · 1110 阅读 · 0 评论 -
OpenCV与Python之图像的读入与显示以及利用Numpy的图像转换
由于opencv中图像是BGR编码,而python中的matplotlib是RGB编码的,这就需要我们转化一下了分割、合并b,g,r=cv2.split(img)img2=cv2.merge([r,g,b])numpy索引转化img3=img[:,:,::-1]plt.imshow(img3)plt.show()方法二的效率更高。 那么方法二怎么理解呢?...原创 2018-05-05 10:18:29 · 2709 阅读 · 0 评论 -
解决python3.x的opencv不能读取中文路径的图片
一般是用cv2.imread函数读取图片,但是含有中文路径的话会出现编码问题,经过一番查找, 有人说 原因是因为python 3.x 将系统字符编码默认为了Unicode,而opencv 读取图片函数的输入参数默认用gbk格式处理, 尝试将b“中文字符路径”.decod(gbk) 依然无解,然后 通过此函数解决,其包含了imread功能...原创 2018-05-04 15:51:02 · 3428 阅读 · 0 评论 -
python缺失值处理
null/None/NaN null经常出现在数据库中 None是python中的缺失值,类型是NoneType NaN也是python中的缺失值,意思是不是一个数字,类型是float 在pandas和Numpy中会将None替换为NaN,而导入数据库中的时候则需要把NaN替换成None找出空值 isnull() notnull()numeric容器会把None转换为NaN...原创 2018-04-23 19:38:10 · 3083 阅读 · 0 评论 -
决策树----ID3
由于这周国庆假期,所以学习就停了一段时间,毕竟放松放松也是挺好的,决策树是放假前看了一点,还没看完,所以先记记所看的内容。 还是继续机器学习实战的学习,相比较k-近邻算法而言,决策树能解决一些非数值的特征值分类问题,当然也能解决数值的特征值分类,这里我们所用的算法是ID3,ID3算法无法直接处理数值型数据,后面将学习CART(分类回归树)算法,则可以解决这个问题。那我们就提出问题了,一些数据的“原创 2017-10-08 21:21:16 · 498 阅读 · 0 评论 -
python爬取CSDN博客并用WordCloud词云分析
前言这周就不写机器学习算法了,下周再更新Logistic分类算法吧,这个算法算是机器学习比较重要的算法了,里面还有关于梯度下降的应用。 这周我们来玩点有趣的东西——爬虫。 爬虫也是最近不知不觉就火起来了,关于爬取网页内容的方法也挺多的比如:用python爬取网页内容,一般是requests库+BeautifulSoup4库结合使用。R语言爬虫 rvest包+magrittr包+xml2包,感原创 2017-10-19 16:02:47 · 1015 阅读 · 0 评论 -
杂谈
这个星期也没有专门进行一些问题的研究,这篇文章算是记录一些学习过程中的小问题以及一些学习笔记。虚拟机连接eclipse运行第一个hadoop程序 这里有篇教程Windows环境下采用eclipse连接虚拟机中的伪分布式集群 在安装过程中我遇到几个问题,开始由于core-site.xml等文件修改出现一些小错误,导致格式化失败。后来又因为localhost中 192.168.237.147 lo原创 2017-09-24 16:52:45 · 367 阅读 · 4 评论 -
k-近邻算法
这篇文章算是机器学习算法文章的开头篇,k-近邻算法个人觉得比较有效而且简单,这一系列的学习我感觉将会很有趣,因为这些算法能直接被用来解决一些实际的问题,把一些枯燥的数学算法用来解决问题,我也认为这是最好的学习方法。本系列文章结合机器学习实战学习做的一些学习笔记。 k-近邻算法简单说就是采用测量不同特征值之间的距离方法进行分类,这是机器学习实战所写的,我觉得不够完整,首先特征值必须是数值类型,否则欧原创 2017-10-01 13:53:16 · 636 阅读 · 0 评论 -
利用selenium爬取Axaj和动态网页
前言我们知道python爬虫,一般小爬虫requests+beautifulSoup,分布式爬虫用Scrapy,我们一般用requests来的方便,但是有的时候你会发现有些网页信息(比如用户评论),用requests是无法获取的,这些javascript管理的动态内容怎样提取? 这就引入我们今天的主角selenium。 AJAX即“Asynchronous Javascript And XML”原创 2017-12-04 09:09:17 · 2520 阅读 · 4 评论 -
PyTorch入门(一)
前言PyTorch 是一个有潜力能改变深度学习实现面貌的 Python 库,它的使用非常灵活与轻松。在本文中,我们将以更实用的方式探索 PyTorch,包括基础知识和案例研究等。此外,本文还将比较使用 NumPy 和 PyTorch 从头构建神经网络的方式,以了解它们在实现中的相似之处。 PyTorch 是一个基于 Python 的库,旨在为深度学习提供一个灵活的开发平台。PyTorch 的...原创 2018-02-28 19:49:38 · 448 阅读 · 0 评论 -
github本地文件上传
两种方法上传文件到github远程仓库github在线上传文件夹 直接拖拽或者选择文件。 注意:github在线无法删除文件或者文件夹,而且超过100以上文件数无法拖拽。通过git工具上传本地文件夹git工具 运行Git Bash 1.配置用户(用户和邮箱为你github注册的账号和邮箱)$ git config --global user.nam...原创 2018-04-02 12:05:02 · 265 阅读 · 0 评论 -
利用GAN生成动漫头像
前言这篇博客参考自:GAN学习指南:从原理入门到制作生成Demo 前面曾经写过一篇:GAN入门介绍 这里再提供一个视频(文末):干货 | 直观理解GAN背后的原理:以人脸图像生成为例 GAN的原理很简单,但是它有很多变体,如:DCGAN、CycleGAN、DeblurGAN等,它们也被用在不同地方,本文将用到DCGAN来生成动漫头像,可以做到以假乱真的地步。原理整个...原创 2018-04-12 21:08:41 · 29307 阅读 · 45 评论 -
Sentiment分析app评论情感
前言SentiStrength软件作为情感分析常用的程序应用能自动情绪分析每秒最多16,000个社交网络文本,英语水平准确度达到最高 - 其他语言可用或轻松添加。这篇文章作为Sentiment使用说明文档入门,方便大家使用。SentiStrength报告了两种情绪优势:-1(非负)到-5(非常负)1(非正)至5(非常积极)实验操作下载直接输入邮件下载即可,最后得到Sentime...原创 2019-05-15 20:47:42 · 3100 阅读 · 3 评论