caojianhua2018-CSDN博客

原创 Python搞不定蝴蝶图？

蝴蝶图，又叫旋风图，是一种特殊类型的条形图，可以很直观的比较两组数据的不同之处，实际上就是蝴蝶两侧翅膀状的差异来阐述同类的差异。然后设置该辅助列的数据选项，选择系列绘制的系列重叠和间隙宽度调整，当系列重叠到100%时，三列数据都回到同一水平线上，然后设置间隙宽度将辅助列厚度增大，三列数据具有相同的宽度。然后为了对比数据列的差异，先制作一个辅助列插入到上述两个数据列中间，辅助列设置了一个常数值-2000（这个常数值也需要和数据列进行对比测试获取），然后把第一个数据变成负值。第四步，进一步优化图形显示。

2022-09-18 10:03:11 810

原创除了Python爬虫，能想到Excel也可以爬虫吗？

1. 爬虫工具有哪些？如题，一提到爬虫主流就是Python爬虫，其实还有Java爬虫，PHP爬虫，不过没想到的是Excel也可以爬一些表格数据。 2. Excel也可以采集数据如果你熟悉Excel，是不是对Excel获取数据比较好奇？如果你熟悉Excel，生活在大数据时代，对于Python是否应该开启学习了？用Excel采集数据很简单，如下采集一下东方财富网的股票龙虎榜数据：在excel2016中打开数据 -- 新建查询 -- 从Web，在如下窗口中输...

2021-03-10 20:02:23 563 1

原创 keras和pytorch实现CIFAR-10物体分类识别

前面第一篇文章我们实现了keras和pytorch的入门helloworld：(12条消息) keras和pytorch深度学习框架的hello world！_caojianhua2018的博客-CSDN博客 https://blog.csdn.net/caojianhua2018/article/details/112339089对使用keras和pytorch有了一定的认识。接下来我们基于lenet5为骨架的卷积神经网络来实现经典数据集CIFAR-10物体识别实践。1.CIFAT-10数据.

2021-01-13 09:05:24 1163

原创 keras和pytorch深度学习框架的hello world！

深度学习已经成为了人工智能各类研究领域的主流技术，python则是其中的通用编程语言。世界上一群顶尖的深度学习研究领域科学家和工程师推出了适应于各类实际问题的网络模型和编程框架，并将其开源让更多的人受益，也有许多的公司也因此推出相关的智能产品。目前深度学习框架中最令人熟知的包括caffe、tensorflow、pytorch、keras、mxnet、cntk等，国内百度公司paddlepaddle、旷世科技的MegEngine、华为的MindSpore。各类学习资源视频也很齐全，本文将聚焦于keras和py

2021-01-07 21:23:25 419

原创 Supervisor进程管理实践

在linux中有些任务执行时需要将进程放在后台执行，而如果采用系统自带的命令启动后，那个运行窗口必须一直开着不能关闭，当关闭窗口时该进程就会终止，影响相关程序的运行。如果进程比较多的时候就显得更麻烦，需要开启多个运行窗口。在linux中管理进程的工具supervisor非常实用，下面来实践一下。（1）Supervisor安装在centos系统中安装时，使用root用户登录，然后直接使用yu...

2020-02-13 23:37:00 647

原创 Hive大数据项目实践

在搭建了Hadoop和hive环境后，就可以使用hive来进行数据库相关操作了。Hive提供了hql（类sql）语句来操作，基本过程与mysql类似，区别的就是对于hive中的聚合操作，将使用hadoop底层的mapreduce进程来执行。下面以一个游戏公司的游戏、用户等相关分析大数据业务为例，以Hive为工具来完成游戏活跃度、用户使用情况等的统计分析工作。（1）数据的产生因为获取游戏...

2020-02-12 10:51:53 1734

原创 Hadoop3.1.2伪分布式环境下安装和配置Hbase2.2.0

本篇属于Hadoop系列环境搭建系列，腾讯云或百度云上都有许多搭建好的环境可以直接用。不过亲自动手实践一下，收获肯定会更多一些。目录（1）软件环境准备（2）HBASE安装及配置（1）软件环境准备Hadoop运行环境：即环境中已经能运行Hadoop。可以参见我的上一篇博文：超详细的Hadoop3.1.2架构单机、伪分布式、完全分布式安装和配置：https://blog.csd...

2020-02-07 08:50:17 1356

原创 Hadoop3.1.2伪分布式环境下安装和配置Hive3.1.2

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开...

2020-02-05 22:55:25 2752 2

原创 PyQt安装下载

直接使用pip install pyqt5时常出现网络断掉，所以记载一下使用国内镜像安装的方法。下面的命令就是使用豆瓣提供的镜像服务。pip install PyQt5 -i https://pypi.douban.com/simple 安装完成后会提示Successfully installed PyQt5-5.13.1，下面安装常用的工具包： pip install PyQt5-too...

2019-10-09 10:46:17 3173 1

原创 PHP Codeigniter3框架+Redis基本操作

Codeigniter是非常简单好用的PHP框架。Redis是非常流行的分布式缓存服务器框架。这里介绍一下CI框架与Redis相结合，实现数据读取的简单操作。目录第一步，开发工具及软件准备：第二步，CI框架部署、Redis安装部署第三步，将redis库加入到CI框架，实现从CI框架里调用redis。第四步，应用示例，读取数据库中的数据并存在redis中第一步，开发工具及软件...

2019-09-23 09:34:26 2264

原创 PHP网站开发--Codeigniter框架实战案例书籍推荐

网络上Codeigniter框架资源不少，博文很多篇，但能够参考的书籍并不多。这里推荐一本书籍，《CodeIgniter敏捷开发框架（实战案例版）》，作者曹鉴华，由中国水利水电出版社出版。目前已经在京东、当当以及相关计算机类书籍电商销售平台上销售。https://item.jd.com/55849020531.html本书不仅仅是介绍Codeigniter，而是从基本的网页前端技术基础...

2019-09-16 09:04:15 595

原创超详细的Hadoop3.1.2架构单机、伪分布式、完全分布式安装和配置

Hadoop是大数据处理主流框架，如果要学习大数据处理与存储，hadoop是必须掌握的一种框架技术。动手安装是最基础的实践，下面介绍一下单机、伪分布式和完全分布式安装与配置、测试过程，供有需要的参考。目录（1）软件准备（2）Centos安装及网络配置（3）JDK安装配置（4）Hadoop单机安装及配置（5）Hadoop伪分布配置（6）启动HADOOP及伪分布式测试...

2019-08-12 12:02:25 12685 1

原创 SpringMVC 入门简单示例

先说明一下，有关SpringMVC相关的资源太多了，这里仅记录一下实现过程。同时实现过程中采用了tomcat的服务版本为2.5。具体过程记录如下：1. 整体Springhello程序结构：2.开始创建Dynamic web project，选择tomcat dynamic web module version为2.5（最新为4.0），然后点击下一步创建。3. 想要实现Spring框...

2019-07-25 13:37:34 164

原创 java数据集合赋值与读取

在网站开发时数据是网站的核心内容。数据如何存储也是关键的处理部分，数据库肯定是数据存储的首选之地，但如果所有数据都存储到数据库，业务处理时总需要对数据库进行读写，数据库服务器压力是非常大的。有些数据属于中间数据，是不需要写进数据库的，可以采用缓存或者会话保存。如用户登录时，可以将登陆的用户名存到session中；用户购物时选择的商品信息，在确定支付结算成功之前的数据如果不是刻意用于用户行为分析，都...

2019-07-17 09:07:01 2353

原创 Javaweb分页显示实现

分页显示对于数据在页面中的展示是非常重要的工具，当数据条数较多时，就需要使用分页来显示。实现分页显示的思路包括：（1）确定数据库中一共有多少条数据，即数据总数；（2）设定每页准备显示多少条数据，计算出一共需要分多少页，即分页数目=数据总数/每页数目，由于用到除法，当数据总数能被每页数目整除时，那就正好那么多页；当不能整除时就需要在分页数目上加上一页才行；（3）有了数据总数，每页数据条数，分页数目后...

2019-07-16 07:36:56 3333

原创 Javaweb使用Javabean完成数据库新闻读取

新闻类读取业务比较通用，可以拓展至其他类型需求。在javaweb处理过程中有几种方式：（1）直接使用java代码访问数据库，进行查询业务获得查询结果，然后在页面显示。这种方式就是在同一个页面中需要使用java代码访问数据库，然后jsp代码显示在Html标记位置，非常混杂，不易维护，别人也很难读懂。不推荐。<%@ page language="java" contentType="t...

2019-07-10 11:14:12 709

原创 Apache2开启path_info的解决方案

Apache2在默认情况下没有开启PathInfo模式，如果使用apache提供的httpd服务，网站文件上传后可以进入首页，如http://114.53.245.102，采用这种方式访问时可以看到首页页面，但在域名后增加url字段时便出现404错误，或者access denied，如地址栏为http://114.53.254.102/a/b/c这种方式时便无法访问。这在许多框架应用时都会出现，...

2019-07-06 20:22:00 4345

原创 Javaweb网站用户注册登录实现小记

用户注册登录过程主要分为几个步骤：（1）前端页面设计；（2）数据访问模型包；（3）Servlet容器数据接收处理；（4）跳转至页面。下面分步骤小记一下，供以后参考：整个实现环境：EclipseVersion: 2018-09 (4.9.0)--Eclipse Java EE IDE for Web Developers.；JDK 1.8.0_73；mysql：5.6.44-win32（远程数...

2019-06-16 19:18:56 12534 9

原创 Ubuntu16.04系统环境搭建web服务器（PHP开发环境）

web服务器用于提供HTTP服务，如果想在客户端浏览web，还需要IP地址。这里对linux环境下搭建web服务器进行记录，同时也可以百度上有很多文章写这个主题。本博就将自己搭建的过程从头到尾阐述一下，供有需要的朋友参考。（1）从ubuntu官网或者国内镜像站点下载ubuntu16.04 server 64位，ubuntu-16.04.5-server-amd64.iso。（2）本地使用虚...

2018-12-08 13:06:14 4490 1

原创 windows环境搭建web服务器（IIS）

windows环境下如何搭建web服务器，百度或者谷歌一下都会有很多教程和资源可以参考。这里我也记载一下过程，便于大家参考。至于什么是web服务器，为什么需要web服务器，这里不太明白的也可以百度一下。简单的说就是需要一个能够处理HTTP协议的互联网程序，当做好一个网站后将其放在这个程序包里。如果指定了这个程序所在电脑的IP地址，就可以用浏览器来显示这个网站了。通常这个程序所在的电脑位置我们称之为...

2018-12-08 11:12:21 15107 2

原创朴素贝叶斯分类理解

有关贝叶斯理论和定理、以及贝叶斯算法和应用大家可以百度出来上千篇博文或者网页，对于贝叶斯理论的解释都比较透彻。个人比较喜欢一种采用两种事件的交集概率来解释贝叶斯分类。这里也来阐述一下。首先正常的概率是指在一定条件下发生某事件的可能性有多大。比如明天天气下雪的概率问题，出门捡到钱的概率，买彩票中大奖的概率问题。说明天天气下雪的概率，这是一种预测，基础条件可能包括冷空气到来、空气湿度增大等，也就是

2017-12-11 21:11:48 512

原创近邻KNN识别算法实施方案选择

KNN最近邻算法是机器学习中最简单的学习算法之一，容易理解，也容易编程实现。一方面可以根据算法的思路采用python自己编写程序，熟悉整个学习流程，另一方面在机器学习SCIKIT learn包还专门有KNN模块，可以直接使用这个模块中的KNeighborsClassifier类。下面介绍两种方案的具体流程和思路：第一种：根据算法自己编程主要流程：计算测试样点与已知样点之间的欧式距离

2017-12-01 15:29:37 389

原创利用最近邻KNN算法对IRIS数据进行测试处理样例

这里采用了IRIS数据进行了类别判断处理，如下为源代码，供参考。说明几点： 1.在getdata函数中对样本数据进行了归一化处理，采用的是传统的标准化方法（Xnorm=(X-Xmin)/(Xmax-Xmin)）。 2.在knn函数中用到了np.tile函数，这个tile函数可以用于对现有数据在行或者列方向复制操作，tile(data, (rowsnum,colsnum)

2017-11-30 21:44:08 3084

原创机器学习iris数据集导入

Iris数据集在模式识别研究领域应该是最知名的数据集了，有很多文章都用到这个数据集。这个数据集里一共包括150行记录，其中前四列为花萼长度，花萼宽度，花瓣长度，花瓣宽度等4个用于识别鸢尾花的属性，第5列为鸢尾花的类别（包括Setosa，Versicolour，Virginica三类）。也即通过判定花萼长度，花萼宽度，花瓣长度，花瓣宽度的尺寸大小来识别鸢尾花的类别。这个数据集可以从UCI数据集上

2017-11-28 20:55:49 30303 4

caojianhua2018的博客