python
仙人掌_lz
数据挖掘学习者
展开
-
用Python计算合肥地铁乘车最优乘车路线:暴力方式
假设地铁平均速度60km/h,平均换乘耗时5分钟,列车各站停留时间30秒。已知乘车站及下车站,求最优乘车路线。也就是最少换乘路线与最短路径之间的选择暴力的解决问题:1,遍历出所有路径,以及换乘次数,换乘线路,路径距离2,找到最短路径(也可能是最短距离),和最少换乘路径进行比较import pickledef find_allPath(graph,start,end,path=[]): path = path +[start] if start == end:原创 2021-02-26 16:19:45 · 1014 阅读 · 0 评论 -
基于密度聚类的新闻热点发现实现步骤
由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控,因此网络新闻热点发现已成舆情监控的重点。 基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下:从es获取目标数据(新闻标题、摘要等信息):根据过滤条件获取目标数据; 利用bert将新闻标题和新闻摘要生成新闻特征向量:利用bert-servin...原创 2020-04-02 10:09:30 · 3184 阅读 · 0 评论 -
基于决策树的交通拥堵成因分析
基于大量的不同环境因素下所对应的交通拥堵状态数据,运用决策树C4.5 算法归纳总结交通拥挤原因并排序。 一、数据获取:1,分别获取拥堵数据集A和畅通数据。2,从B中根据路段筛选出与A数量相等的畅通数据与A合并作为训练数据集C。3,对C中每条数据计算出30分钟内路段有无拥堵,30分钟内上一路段有无拥堵,30分钟内下一路段有无拥堵,30天内拥堵次数是否超过7次(常拥堵)。...原创 2020-04-02 10:04:16 · 2993 阅读 · 1 评论 -
bokeh学习总结_关系图绘制
Bokeh (Bokeh.js) 是一个 Python 交互式可视化库,支持现代化 Web 浏览器,提供非常完美的展示功能。Bokeh 的目标是使用 D3.js 样式提供优雅,简洁新颖的图形化风格,同时提供大型数据集的高性能交互功能。Boken 可以快速的创建交互式的绘图,仪表盘和数据应用。...原创 2020-04-02 09:24:03 · 1296 阅读 · 0 评论 -
安装 Keras(tensorflow-gpu)
首先确保你的机器已经安装Anaconda临时切换到清华源:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。目前大家用的比较多使用 TensorFlow 后端一、安装tensorflow/keras...原创 2018-08-16 10:46:12 · 14024 阅读 · 1 评论 -
python安装pyltp错误的解决办法 完美解3.6的问题
折腾到半夜才解决,由于pyltp的bug 目前python3.6安装出现错误直接源码编译也出现错误最后找到一个办法whl下载地址:压缩包(需要一个积分):包含两个文件 window,wheel安装文件 下载后解压到目标路径,通过cmd进入到whl所在路径。然后pip install 文件名.whl...原创 2018-08-23 01:06:00 · 1780 阅读 · 3 评论 -
错误代码:Using TensorFlow backend. Intel MKL FATAL ERROR: Cannot load libmkl_avx512.so or libmkl_def.so.
conda install nomkl numpy scipy scikit-learn numexprconda remove mkl mkl-service以上为完美解决方案原创 2019-02-12 16:52:13 · 1413 阅读 · 0 评论 -
cudnn安装步骤及下载链接
1,下载cudnn链接: https://pan.baidu.com/s/16ptngxh_2wk17oDGCKJ3-g 提取码: zyri 复制这段内容后打开百度网盘手机App,操作更方便哦根据需要下载合适版本2,解压$ tar -xzvf cudnn-9.0-linux-x64-v7.tgz(注意下载的版本)3,复制一下文件到系统cuda(注意自己的文件路径)$ sud...原创 2019-02-19 11:18:49 · 2633 阅读 · 1 评论 -
python pip批量安装和获取依赖包
在包内打开窗口输入pip install -r requirements.txt从一个机器的python包导为requirements.txt指令为:在包内打开窗口pip freeze >requirements.txt原创 2019-03-12 12:09:16 · 801 阅读 · 0 评论 -
python sklearn模型融合案例分享
heamy库的blending方法和mlxtend库的Stacking 方法# -*- coding: utf-8 -*-from heamy.dataset import Datasetfrom heamy.estimator import Regressor, Classifierfrom heamy.pipeline import ModelsPipelinefrom skle...原创 2019-04-16 13:37:32 · 3097 阅读 · 1 评论 -
基于百度aip主题提取的文本主题聚类
场景大量的文本留言,有短文本有长文本,我们如何搞笑提取文本主题?如上图 知道view 如何获取topics解决办法:1文本分类2,主题提取3,主题聚类4,主题输出from sklearn.cluster import DBSCANimport jieba.possegimport jieba.analyseimport pandas as pdimport ...原创 2019-05-15 15:10:58 · 954 阅读 · 0 评论 -
python 一键更新库的方法
python3 pip10以上import pipfrom pip._internal.utils.misc import get_installed_distributionsfrom subprocess import call for dist in get_installed_distributions(): call("pip install --upgrade " + ...原创 2018-06-28 18:19:10 · 3227 阅读 · 0 评论 -
xgboost.XGBClassifier 分类算法 参数详解
class xgboost.XGBClassifier(max_depth=3, learning_rate=0.1, n_estimators=100, silent=True, objective='binary:logistic', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta...原创 2018-06-06 11:14:05 · 22009 阅读 · 1 评论 -
统计学习方法--朴素贝叶斯 python实现
朴素贝叶斯朴素贝叶斯方法是一套基于贝叶斯定理的监督学习算法,在每一对特征之间采用独立的 “naive” 假设。给定一个类变量 和一个从属特征向量 到 ,贝叶斯定理表示以下关系:使用 naive ( 天真 ) 独立假设:对于所有的 i ,这种关系被简化为:由于 给定输入是常数,所以我们可以使用以下分类规则:我们可以使用原创 2017-10-25 10:26:07 · 1330 阅读 · 0 评论 -
Python操作MySQL -即pymysql/SQLAlchemy用法
# -*- coding: utf-8 -*-"""Created on Tue Nov 7 12:38:21 2017@author: lizheng"""import pymysqlimport pandas as pd"""使用sqlalchemy结合pymysql 方式读取数据库# =========================================原创 2017-11-07 14:19:09 · 1810 阅读 · 0 评论 -
统计学习方法--决策树 python实现
决策树模型与学习决策树模型是一种描述对视力进项分类的树形结构。决策树由节点和有边组成,节点有两种:内部节点和叶节点。内节点表示一个特征或的户型,叶节点表示一个类。用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结构,将实力分配到其子节点;这时每一个子节点对应着该特征的一个取值,如此递归地对实例进行测试并分配,直到达到叶节点,最后将实例分到叶节点的类中。决策树与if——th原创 2017-10-23 13:59:51 · 586 阅读 · 0 评论 -
文本分类问题的增量学习 PassiveAggressiveClassifier在线主动攻击型分类算法 大数据
实际解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。如果是文本分类分体,你还需要提取文本特征,这时候如果把数据load到内存,那占用内存就太大了,如何解决:1. 对数据进行降维?2. 使用流式或类似流式处理?3. 上大机器,高内存的,或者用spark集群。本文将要介绍的是一种增量学算法PassiveAggressiveC...原创 2017-12-27 16:47:00 · 6525 阅读 · 1 评论 -
pyspark学习系列(一)创建RDD
由于个人工作需要spark,然后我有事一个编码门外汉,数据分析出身,除了学习了简单的sql,那么目前本人掌握的语言也就是python(JAVA教程看了一周放弃了),用python学习机器学习,然后在项目中实践了部分内容,现在想把项目搬到集群上去,所以要学习spark,但是发现网上关于pyspark的教程真的是太少了,本系列讲以《pyspark实战指南》为基础,详细介绍本人学习pyspark过程中的...原创 2018-03-16 23:34:01 · 9798 阅读 · 4 评论 -
pyspark学习系列(二)读取CSV文件 为RDD或者DataFrame进行数据处理
一、本地csv文件读取:最简单的方法:import pandas as pdlines = pd.read_csv(file)lines_df = sqlContest.createDataFrame(lines)或者采用spark直接读为RDD 然后在转换lines = sc.textFile('file'))如果你的csv文件有标题 的话,需要剔除首行header = lines.firs...原创 2018-03-20 15:59:07 · 15793 阅读 · 0 评论 -
pyspark学习系列(三)利用SQL查询
对于spark 中存在dataframe,我们可以用 .creatOrReplaceTempView方法创建临时表。临时表创建之后我们就可以用SQL语句对这个临时表进行查询统计:from pyspark.sql.types import *# Generate our own CSV data # This way we don't have to access the file sys...原创 2018-03-31 10:45:51 · 5548 阅读 · 0 评论 -
pyspark学习系列(四)数据清洗
from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession from pyspark.sql import SQLContextfrom pyspark.sql.types import *spark=SparkSession.builder.appName("lz").getOrCreat...原创 2018-04-08 17:56:05 · 4396 阅读 · 1 评论 -
XGboost安装(linux)
看了很多 发现install install xgboost 安装出错然后 conda install -c conda-forge xgboost 完美安装(前提是安装了 anaconda)记录一下原创 2018-06-05 17:30:28 · 374 阅读 · 0 评论 -
统计学习方法--K近邻法 python实现
k近邻是一种常用的分类与回归算法原创 2017-10-19 12:31:10 · 658 阅读 · 0 评论