- 博客(22)
- 收藏
- 关注
原创 GitHub网站项目下载速度过慢、下载失败问题成功解决
GitHub对于广大开发者来说肯定是必备的网站,经常的浏览GitHub网站中的项目, 学习优秀项目的设计逻辑和实现思路对于提升自己的基础实力是有很大的帮助的,但是无奈当我们需要从GitHub中下载指定的项目到本地学习的时候,经常会遇上网速很慢很慢几乎为0的情况,小到几MB达到几十MB、几百MB的项目下载失败是常用的事情,真的也是很头疼的事情了。 我们不禁会问:为什么这...
2019-07-31 18:04:56 10337
原创 neo4j图数据库安装实践与报错解决
在图数据库领域中neo4j应该是使用的非常广泛的一种了,之前研究生期间就安装过这个数据库,后来换了电脑也就没有在尝试使用了,今天想在台式机上重新安装一下。 数据库下载地址在这里 打开后下载我红色线框圈出来的版本即可: 也就是社区版【免费】的windows版本就行了。 下载好了以后直接解压缩即可,如下: 进...
2019-07-31 15:09:11 3539
原创 Python实现多变量序列堆叠式LSTM模型,并实现未来多时刻预测
在时间序列相关的很多建模工作中,LSTM模型是经常会使用到的,从提出到现在LSTM模型已经有了很多的扩展、变种和应用,今天我们简单地实现基于LSTM模型来对多个变量的数据进行建模预测,在简单地预测中只能做单步预测,这里实现了多步的预测分析。 具体实现如下:#!usr/bin/env python#encoding:utf-8from __future__ i...
2019-07-27 16:02:52 6102 21
原创 python实现创建数据表并写入数据
今天主要是总结一下最近使用较多的MySQL数据库的读写操作,将公共部分抽象出来做成单独的模块,比如我提供了一个数据库写操作的函数,只要明确了数据输入的格式,可以从csv文件、json文件、txt文件、Excel文件进行原始数据文件的读取然后调用写操作函数完成数据的写入操作,能够简化重复的工作。 具体的Demo实现如下:#!usr/bin/env python#enco...
2019-07-26 23:23:51 3213
原创 Python基于ImageAI实现完整的流程:数据集构建、模型训练、识别预测
在前几天的博客里面,我介绍了ImageAI模块,以及基于官方预训练得到的模型进行了简单的识别分析,整体的流程都是比较简单的,今天想要基于ImageAI模块来完整地实现整个图片分类识别的流程,也就是说:这里的数据集构建和模型的训练以及结果模型的调用预测都是自己完成的。ImageAI简化了模型的搭建流程,所以整体来说还是比较简单的。 按照官方的讲解我们先来构建自己本地的数据集...
2019-07-25 11:57:04 4250 30
原创 python基于百度地图获取指定的经纬度信息
在实际做项目的时候经常会遇上需要使用到某个位置经纬度的情况,这个位置的经纬度经常又是没有的,那么就需要基于公开的数据去获取了,这里基于百度地图提供的API来完成指定位置经纬度数据的获取,实现很简单,主要是提供一个便捷的小工具方便使用,具体实现如下:#!usr/bin/env python#encoding:utf-8'''__Author__:沂水寒城功能: pyth...
2019-07-25 10:50:25 1320
原创 python生成指定年份所有的天,并计算每天属于一年的第几周和周几
今天有一个功能点是需要按照日历上面的日期来进行一些数据的计算工作,在计算之前我需要将每一天属于一年52周里面的第几周和周几计算出来,在计算之前我还需要有一年内的所有天的日期,整体的思路是十分清晰的,实现流程也没有特别复杂的地方,主要就是要细致一点,好了,不多说了,具体实现如下:#!usr/bin/env python# encoding:utf-8from __future...
2019-07-23 20:07:21 2080
原创 python基于scipy拟合构建所需统计分析模型,可视化分析展示
最近的工作中有一个需求就是,给我一批历史的数据,需要我基于统计分布模型来去拟合一下原始的数据,挖掘出来数据最有可能的统计分布是怎么样的,为后面的参数区间计算或者是概率值计算提供一个指导。 下面是我手中数据的概率分布情况: 从上面的概率分布函数曲线来看并不是一个正态分布的模型,所以我们就需要来去找别的统计模型来进行拟合分析了,标准模型比如:正态分布模型、...
2019-07-22 19:55:19 2134
原创 Python基于 ImageAI 模块实践 idenprof数据集识别预测分析
图像识别早已不是很新鲜的话题了,很多数据处理的任务到最后都会归为图像识别中,在之前的很多工作中,我陆陆续续也接触了很多相关的工作,从最开始数据处理,到模型搭建与最终上线也都经历,大多数时候模型都是自己搭建的,虽然说现在keras的出现极大地简化了模型的搭建工作,但是整个过程还是需要自己去实践完成的,对于很多的初学者来说并不是很容易的。 今天发现了一个好玩的库——Imag...
2019-07-21 13:41:31 3147 12
原创 pyspark报错问题 Exception in thread "main" java.lang.UnsupportedClassVersionError 成功解决
pyspark是基于Python去学习实践spark框架很好的方式之一,之前我已经按照网上的一些教程完整地搭建了Hadoop和Spark的环境,之后安装了pyspark,安装方式很简单直接使用下述命令即可:pip install pyspark 一系列的安装结束之后就安装好了pyspark以及相关的依赖模块了。 在我之前的博客里面也有相关的机器...
2019-07-20 13:24:38 1409
原创 python读取 .sqlite 数据库文件
继上一篇文章《python实现【国家统计局】三级区划代码和城乡划分代码爬取》我们爬取了国家统计局中公布出来的行政区划编码数据,今天我们发现了民政局也公布了类似的数据,但是这个不需要爬取,可以直接下载网站提供的压缩包就好了,压缩包解压缩后我们得到的是 .sqlite 形式的数据库文件,想要查看数据内容就需要对该类型的数据库文件进行解析处理。 具体的数据读取实现如下:#!...
2019-07-19 23:58:13 3554
原创 神经网络中常用激活函数总结【Python实现激活函数与导函数,曲线可视化分析】
神经网络中激活函数发挥着非常重要的作用,在处理简单的线性可分的数据集的时候我们不需要用到激活函数仅仅依靠线性分类器就可以解决问题,但是实际生活中的绝大多数的场景并不是这样简单的,那么简单的线性分类器就没有办法起到很好的效果了,此时常用的处理手段有两种:1、借助于转化策略将低维空间线性不可分的数据映射到高维空间中,使得其变得线性可分,此时依旧可以基于线性分类器完成建模处理,例如:S...
2019-07-18 14:02:47 3017
原创 Linux 命令之——文件行数查询命令温习
昨晚的问题中还有一个方面就是问到了Linux命令相关的内容,我自己很多开发工作也都是基于Linux环境进行的,所以对于这一块还是比较有自信的,结果问了一个问题就是“给你一个文件,给我统计一下这个文件的行数”,我一时想不起来了,后来结束了之后我突然想到了自己之前统计过指定文件夹内文件的数量,命令如下:ls -l | wc -l 结果如下: 可是...
2019-07-17 09:35:43 833
原创 sigmoid函数温习【函数曲线可视化与导函数曲线可视化】
今天晚上遇到一个问题就是sigmoid函数,我只记得sigmoid函数的原始函数曲线是什么样子的,但是导函数是什么样子我还真的是不记得了,恰巧就被问到了这个问题,还顺便问了一下导函数的取值范围是多少,如果当时有纸和笔的话我倒是可是现场算一算的,但是当时是在阳台上没有办法去算,尴尬...... 结束了这一次的尴尬之后,回到工位上抓紧温习一下,先绘制一下sig...
2019-07-16 21:01:33 2643
原创 Uber开源深度学习工具Ludwig学习实践
随着人工智能热潮的增强,越来越多的AI应用或者是工具走进人们的事业,Uber也不例外,其开源了自己研发的基于Google深度学习框架Tensorflow的深度学习工具Ludwig,号称甚至可以不写一行代码就完成深度学习完整的工作,看到这里不仅就要前来尝试一番了。 官方的GitHub仓库在这里。 官方网站在这里。 官方提供的exam...
2019-07-16 14:13:25 1266 2
原创 python实现【国家统计局】三级区划代码和城乡划分代码爬取
今天找了点时间做了一个小爬虫,主要目标网站就是国家统计局,里面有历年来的区划代码和城乡划分代码数据,这在一些项目中都是会使用到的,爬虫本身的实现没有太复杂的内容,我们今天采集的是最新的也就是2018年的三级划分编码数据,目标网站的截图如下所示: 以北京市为例,点击进入二级编码数据页面如下: 三级编码数据如下: 当然,再次点击...
2019-07-15 23:41:35 7685
原创 python实现基于分钟数据来计算小时风速、风向的数据
今天处理了一个气象数据集,我们得到的数据集是分钟数据形式,需要转化为小时数据形式,我们都知道小时的风速风向其实并不是二者分钟数据的均值,因为不可能一小时内所有的风向都是同一方位上的,只能说某一方位上一小时内的频度最高,也即该方位为该小时内的主风向,至于风速的计算,则是取一小时内该主风向方位上的所有分钟风速数据的均值。 有了上面的计算思路之后就可以直接进行实现了,具体实现如...
2019-07-14 22:51:06 6301 1
原创 python实现基于 Adaboost 框架来构建自定义集成模型【自定义基分类器模型】
sklearn提供了Adaboost等几种常见的集成框架很成熟的实现,在以往的大多数使用场景中,我大都会直接使用默认的基分类器模型,不会对其进行调整设置,其他的几个主要的参数比如:基分类器数量等可能会基于网格调参的形式进行最优化参数的搜索, 下面是sklearn官网里面对adaboost模型的参数定义:class sklearn.ensemble.AdaBoostClassifie...
2019-07-13 22:28:48 1716 6
原创 python实现xml数据解析处理
今天leader给我了一个excel数据,要我对它进行解析处理,我按照Excel数据格式对其进行解析处理,发现一直报错,提醒我数据文件不是excel数据格式,原始数据部分截图如下:time Temperate Pressure Humidity WindSpeed WindDirection 2023-06-26 17:30:00 27.12...
2019-07-12 18:35:25 947
原创 百度开源深度学习框架【飞桨——PaddlePaddle】学习实践一
上一周百度刚刚召开了AI开发者大会,其中自研的深度学习平台飞桨再一次走进了大家的视野里面,其中,早在学校期间我就有接触过PaddlePaddle,据说这个名字都是机器学习界的大神吴恩达给起的,也就是下面这位: 这里说之前接触过是什么意思呢,主要是之前接触的时候并不是很顺利,在安装和搭建的时候都有问题,后面的实践也就不了了之了,今天重新来安装使用了PaddlePadd...
2019-07-11 19:20:24 7576 4
原创 Python实现蒙特卡罗方法仿真模拟求解圆周率Pi值
最近遇上了需要仿真模拟采样相关的工作,之前接触过比较牛的方法之一就是蒙特卡罗方法,对于这个随机采样方法的了解过,但是详细的概念什么的早已记不住了,这里给出来百度百科的定义:蒙特·卡罗方法简介蒙特·卡罗方法(Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值...
2019-07-10 17:26:46 4884
原创 Python实现正态分布指定区间内【置信区间】概率值计算
学过概率论的相信对于正态分布都不会陌生,这个可以说是非常经典非常重要的一种概率分布了,在现实生活中也是广泛在使用的,比如说:男女的升高服从正态分布,灯泡的寿命服从正态分布,某地区的降雨量服从正态分布,诸如此类的实例还有很多,可以说我们生活中的很多场景都符合或者近似符合于正态分布。 记得上学的时候,求解指定区间内的概率如下: 往往都是转化为标准正态分布,之后借...
2019-07-03 19:27:20 8066 4
hadoop-mysql-hbase环境部署套装.zip
2020-09-08
Ubuntu下gcc-7.5.0安装完整依赖.zip
2020-05-22
猫狗大战迁移学习项目.zip
2020-04-03
Microsoft Visual C++ 安装包【14.0和9.0】.rar
2019-09-05
pyltp安装包whl文件.rar
2019-08-08
中科院自动化所宗成庆-自然语言处理方法与应用.rar
2019-08-08
2018知识图谱发展报告.rar
2019-08-08
SQL SERVER查增改删,导入导出简便工具.rar
2019-08-08
Python数据分析与数据化运营.zip
2019-07-15
坦克大战tank.zip
2019-06-14
Docker技术入门与实战
2018-12-16
第一本Docker书(完整版)
2018-12-16
Deep Learning with PyTorch
2018-12-07
Python高效开发实战——Django、Tornado、Flask、Twisted
2018-11-27
python2和python3版本可用的OpenCV安装包
2018-11-16
Python计算机视觉编程(含源码)
2018-11-16
linecache安装包(python2和python3兼容)
2018-11-15
数据算法 Hadoop Spark大数据处理技巧
2018-10-31
sklearn超详细实践文档说明
2018-09-16
大规模网页相似度计算
2017-06-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人