pyswt-CSDN博客

原创生意参谋指数之指数推理原值

生意参谋指数是通过函数将原值进行一次换算，他的正向函数是这样的：*y = (10ln(x+1)+30)x^0.5现在正向函数知道求反函数问题不是就解决了吗？？？发现这个真不好求好吧，好求得话淘宝就不会花大价钱搞这个了，不能求那怎么办，只能去拟合一个函数出来咯[抠鼻.jpg]，话不多说，代码搞起来，数据得话可以用正向函数来收集，收集完用多项式拟合一个函数出来！！！到这我只想说大哥你太天真了（天真三连），拟合出来发现差值太多了不能用那怎办呢，拟合结果又不能用，难道就没办法了吗？有，当然有！

2021-08-05 11:28:16 1677 4

原创 pytorch模型tensorrt加速之-pth转onnx转trt，在推理trt模型测试模型速度

首先需要安装两个必要的包tensorrt和torch2trt，tensorrt的话要在官网下载tar压缩包，建议下载tar包安装

2021-04-29 15:42:03 7292 11

原创 centos7正式服务器部署uwsgi+nginx+django项目-亲身研究[斜眼笑]

服务器是centos7的，首先从安装python3开始安装依赖包yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc* make -y然后安装python3wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tar.xztar -Jxvf Python-3.5.2.tar.xz

2020-12-11 11:04:08 436

原创解决python pip请求超时问题

pip请求超时解决办法：第一种，pip版本更新，输入python -m pip install --upgrade pip如果第一种更新完毕还是请求超时，就进行第二种：切换源将源切换为清华大学的源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple基本上这两步就ok了...

2020-04-17 17:20:40 824

原创 python+sparkStreaming+kafka之大数据实时流

首先需要的是环境，我安装的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因为spark是Scala语言写的，所以这个必须的安装，大数据传输存储需要用到Hadoop，HDFS，所以Hadoop需要安装，streaming接受流数据源有两种大的方式，一种是文件和套接字，直接读取文件和通过套接字传输，另一种是高级API形式，可以通过额外的实用程序类获得诸如Kafka，F...

2019-12-23 16:31:20 2158

原创 pyspark之RDD，Data Frame，SQL Context 转换与操作

# 加载数据Path='file:/home/swt/pythonwork/PythonProject/'RawUserRDD = sc.textFile(Path+'data/u.user')RawUserRDD.count()# 查看RDD数据RawUserRDD.take(5)['1|24|M|technician|85711', '2|53|F|other|94043',...

2019-12-18 11:12:43 1239

原创 pyspark之LogisticRegression算法

import sysimport timeimport pandas as pdimport matplotlib.pyplot as pltfrom pyspark import SparkConf,SparkContextfrom pyspark.mllib.classification import LogisticRegressionWithSGDfrom pyspark.ml...

2019-12-17 11:48:55 767

原创 pyspark之二分类决策树算法

# 首先还是设定数据目录，取决于你的pyspark是什么方式启动的global Pathif sc.master[0:5] == 'local': Path = 'file:/home/swt/pythonwork/PythonProject/'else: Path = "hdfs://localhost:9000/user/swt/"import numpy as np...

2019-12-17 11:29:17 1322

原创 pyspark运行ALS推荐算法

首先创建读取路径，这个取决于你的pyspark是以什么方式启动的global Pathif sc.master[0:5] == 'local': Path='file:/home/swt/pythonwork/PythonProject/'else: Path="hdfs://ubuntu:9000/user/swt/"我是本地启动sc.master'local[*]...

2019-12-16 12:30:40 1747

原创 pyspark RDD基本操作

RDD转换运算# 创建intRDDintRDD = sc.parallelize([3,1,2,5,5,6])intRDD.collect()[3, 1, 2, 5, 5, 6]# 创建stringRDDstringRDD = sc.parallelize(['apple','pen','banana'])stringRDD.collect()['apple', 'pen',...

2019-12-13 18:11:42 337

原创 keras Embedding层报InvalidArgumentError: indices[23,18] = -1 is not in [0, 480)类似错误解决办法

对于码农来说，最害怕的就是各种bug。关于InvalidArgumentError: indices[23,18] = -1 is not in [0, 480)这个类型的错误，我之前也遇到了，然后在网上找了半天也没有解决，最后想了想看了看数据，词向量里面有负值(<0的值)，我想和这个有没有关系，然后就把数据标准化了一下把负值变成了正值，运行竟然可以了，好神奇啊~（咳咳），想想也是，词向量里...

2019-12-06 11:26:18 5109 1

原创基于LSTM网络的文本生成

import tensorflow as tfimport numpy as npimport os#使用cpu进行运算，注释掉使用gpu运算os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"os.environ["CUDA_VISIBLE_DEVICES"] = "-1"# 读取文件，所有文本读成一个字符串，总长度为600893pat...

2019-11-29 10:49:20 948

原创 Linux安装kafka，flink并运行word count.py测试demo

Linux上安装kafka与flink非常简单（前提需要Java环境），首先到官网下载压缩包，kafka官网选择适合自己的tgz包，下载完可以放到usr/local/下（我的放到这个目录下，可以根据自己的情况），之后进行解压缩tar -xzvf 压缩包.tgz然后进入解压目录启动zookeeper,(因为现在安装kafka无需安装zookeeper，kafka自带)bin/zookeep...

2019-11-21 15:55:25 670

原创 centos7成功安装python3环境selenium+chrome+chrome driver

首先安装chrome浏览器，首先可以先建一个文件加用来存放chrome和chrome driver文件。比如我的就在/usr/local/chromewget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm --no-check-certificate这个命令是安装最新的版本的chrome浏...

2019-11-01 17:01:43 399

原创 Tensorflow之CNN网络分类mnist数据集

本文是用专为图像而生的CNN网络学习mnist数据集并测试准确度，全部代码如下import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('data/',one_hot=True)首先下载mnist数据集到指定的路径下...

2019-10-15 11:48:01 272

原创 Tensorflow之基本操作

Tensor flow是现在最流行的深度学习框架之一，要想使用它，就得按照七要求使用Tensor flow自己的生态环境，那就从最基础的开始学起#Variable用法import tensorflow as tfw = tf.Variable([[0.5,1.0]])x = tf.Variable([[2.0],[1.0]])y = tf.matmul(w,x)y<tf....

2019-10-09 15:15:06 275

原创手写简单神经网络

最进在学神经网络，所以就得先从基础得做起，手写神经网络（斜眼笑），那就~开始吧！！import numpy as np#sigmoid激活函数def sigmoid(x,deriv=False): if deriv == True: return x*(1-x) else: return 1/(1+np.exp(-x))在这里先写一个si...

2019-08-20 15:30:50 1551

原创 keras深度学习框架进行文本分类

近期接手的一个项目就是深度学习文本分类，我选用的是keras深度学习框架，下面把处理过程给大家分享一下，首先是要加载数据，我的数据是在文档里面，首先读取csv文件选取字段。def laod_csv(): print('正在加载数据...') data = pd.read_csv(r'data\3_9.csv',encoding='gbk') target_list = [...

2019-06-27 19:07:39 1153

原创利用eda函数对文本数据进行增强

近期接手一个项目，时关于深度学习文本分类，我用的是keras深度学习框架LSTM模型，学习前首先得对数据进行处理，由于文本类别比较多有96类，并且有部分类别数据量比较少，这将会影响算法的拟合，我首先想到的是过采样的方法，但是过采样对文本数据无用，所以得先进行词向量的转换，转换完之后我发现准确率还是上不去，后来看了一下word2vec原理，是按照输入的文本数据进行分词统计，在计算词向量，所以这样利用...

2019-06-27 18:11:28 2788 7

原创特征工程常用的函数及使用方法

近期参加了天池的数据可视化比赛，我在队伍中担当的是特征工程和后端，虽然但最后后端部署到服务器上的时候我不会，但是，这次比赛也让我学到了许多东西，下面我来总结一下我做特征工程常用的方法第一个最简单的读写文件，pandas库里面有许多读写文件的函数，支持的文件类型也有很多，常见的csv，excel，sql等，第二个，最常用的分组函数groupby，许多功能都要基于这个函数，而且后面也可跟许多函数...

2019-05-13 10:23:53 614

原创 selenium爬取珍爱网用户信息

近期接到一个任务，爬取珍爱网上的用户信息，这个对单身的我来说瞬间提起了兴趣，这有可能是我脱单的开始，哼哼，不装逼了，先来看看怎么帮我脱单，嘻嘻嘻import requestsimport timeimport refrom lxml import etreefrom selenium import webdriverfrom selenium.webdriver.common.by i...

2019-05-04 16:53:00 1955 3

原创 Ubuntu16.4安装python3+selenium+chrome driver自动化测试

项目有需求，咱们就的解决，首先安装python3，依次执行如下代码：wget http://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgztar -xvzf Python-3.6.4.tgzcd Python-3.6.4./configure --with-sslmakesudo make install如果需要可以在前面...

2019-04-29 23:39:16 842

原创 ubuntu16.4 etree包报错问题解决

近期项目需要etree和Ubuntu系统，所以在系统上运行的时候报错no mode name ‘etree’，这个是因为有些lxml包中不包含etree插件，所以的重新下载，我在网上看到有解决办法输入如下命令：sudo apt-get install python-dev python3-dev libxml2-dev libxslt1-dev zlib1g-dev这个是下载必须的dev包...

2019-04-29 22:42:38 431

原创 python baostock模块应用

python baostock模块是专门用来获取股票的一些参数，是因为我现在需要一些数据，所以在这分享一下它的用法，首先下载安装，pip install baostock，就ok了，官方文档，用法也很简单:import baostock as bsimport pandas as pd#登陆系统lg = bs.login()# 显示登陆返回信息print('login respond...

2019-04-12 10:33:09 8333

原创处理Django post请求接收不到嵌套的参数的情况

最近在做的一个项目需要python做服务端，我一个数据分析的来写后端了，哈哈，这是要发展为全栈了吗。那就全栈吧，~~首先呢，我是这样写的：Django端接收：def cipin_statistics(request): result = request.POST print(result) return HttpResponse('{"status":"'+status+'","cod...

2019-03-20 18:14:57 1071

原创在未知文件编码格式的情况下修改文件编码格式

在项目中有遇到了一个问题，原因是客户上传的文件编码不确定，一般是ANSI格式，但我处理的时候必须是utf-8格式，所以，需要把文件的编码进行修改，我用python3进行了修改，代码如下：import chardetimport codecs#修改文件格式def convert(filename,out_enc='utf-8'): content = codecs.open(fi...

2019-03-20 17:29:00 805

原创记一次爬虫项目-杭州19楼

这个项目我爬的是19楼中我要爆料模块，具体代码如下：import requestsimport reimport timeimport randomimport threadingimport pymysqlfrom lxml import etreefrom bs4 import BeautifulSoupdef lou_spider(key=None): url_s...

2019-03-15 12:39:07 9124

原创 python自然语言处理之情感分析--snownlp包的使用

再此之前我一直在寻找情感分析的博客，也看到了有多种情感分析的方法，有用机器学习算法来学习，不过这种方法需要自己标注一些训练数据，这个工作量是很大的，我也研究过nltk包的使用，但研究了半天始终是有关英文的自然语言处理，对于中文来说有些方法不适用，偶然看到snownlp包，专为中文自然语言处理写的工具，就拿来研究了一番，下面就把他的一些功能记录一下，有什么新的功能或是错误的地方请指点，谢谢。fro...

2019-02-25 17:21:06 6622 4

原创基于selenium无头请求爬取微博文章

这个爬虫的初衷是源于公司的一个项目，公司在建设舆情分析系统，所以需要大量的数据，当然微博这个较大的交际圈有大量的信息，所以老大让我爬微博，但是又给我给了个需求，要自定义爬虫，用户输入一个关键字，爬取和这个关键字有关的全部内容，像这个样子：在搜索框内输入咸猪手，把所有的咸猪手全部揪出来，嘻嘻，我纳闷了半天，就想到用selenium爬取，结果还是很好的啦~，看代码：import timeimp...

2019-02-21 15:28:52 443 4

原创记用Fiddler抓包爬取pc端微信公众号文章

首先呢，得会用Fiddler这个工具，他下载比较容易，网上一找一大堆，下载完之后呢要对他进行一些设置，我抓取的是pc端的微信文章，这里有详细的配置说明(https://blog.csdn.net/Tester_xjp/article/details/80087014)，配置完成之后，可以打开浏览器随便查询一下，看有没有流量包，如果有，则说明配置成功。下面就让我们进行微信公众好的爬虫吧，流量包很多的...

2019-02-20 23:40:57 19187 5

原创 python自然语言处理-学习笔记(三)之文本相似度计算

'''文本相似度计算方法'''#1，编辑距离计算'''是指两个字符串之间，由一个转成另一个所需的最少操作次数，如果它们就距离越大，说明它们越不同，预科的编辑操作包括将一个字符替换成另一个字符，插入一个字符删除一个字符'''import distanceprint(distance.levenshtein('setting','string')) #2#第一步在s和t之...

2019-01-24 14:47:16 2296

原创 jieba模块的主要功能

import jiebaimport jieba.analyseimport jieba.posseg as pseg#jieba的主要功能#1，分词text = '''1月17日，上虞区委书记陶关锋在全区机构改革动员大会上宣布，国家级杭州湾上虞经济技术开发区和省级上虞经济开发区两大开发区正式整合。开发区将更加聚焦规划、建设、招商等“头部”职能，全力打造“万亩千亿”产业大平台。这是一项...

2019-01-22 17:58:21 2444

原创 python自然语言处理-学习笔记（二）之nltk包常用的功能

1，语料库的获取&gt;&gt;&gt;import nltk&gt;&gt;&gt;nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt...

2019-01-21 17:29:37 832

原创 python自然语言处理-学习笔记（一）之nltk入门

nltk学习第一章一，入门1，nltk包的导入和报的下载import nltknltk.download() （eg: nltk.download(‘punkt’),也可以指定下载那个包）2，book图书集，是一些数据，from nltk.book import **** Introductory Examples for the NLTK Book ***Loadin...

2019-01-17 16:33:34 1140

原创虚拟机安装单机python+spark环境

python环境Linux系统是自带的，你可以输入python来查看版本（python2版本），输入python3（python3版本）查看。spark安装前提是要下载压缩包，根据个人需求在官网下载压缩包，放到虚拟机得 /home/用户目录下（我下的是spark-2.1.1-bin-hadoop2.7.tgz这个包）然后开始解压tar -xzvf spark-2.1.1-bin-hadoo...

2019-01-03 17:14:41 1063 1

原创基于python+spark环境下的虚拟机中安装Java

虚拟机下安装Java环境，首先得先下载jdk压缩包，这个可以到官网上下载，在这里就不再阐述了。下一步就是把下载下来的压缩包移动到虚拟机下，建议直接移动到home/用户名/ 目录下，也就是终端打开之后默认目录，然后就是解压，命令是我下载的是jdk-8u101-linux-x64.tar.gz这个版本，可以根据个人需求下载sudo tar -zxvf jdk-8u101-linux-x64...

2019-01-03 11:05:27 396

原创利用jieba进行分词，词云图展示

import jiebafrom scipy.misc import imreadfrom wordcloud import WordCloud,STOPWORDS,ImageColorGeneratorimport matplotlib.pyplot as pltimport pandas as pddef get_word(): df = pd.read_csv('weix...

2018-12-15 09:23:22 4466

原创自定义K-领进算法的实现

k-邻近算法精髓在于欧式距离公式，我们就是模仿这个过程来实现算法，代码如下：import numpy as npdef knn_classify(dataset, labels, new_input, k, weight='uniform'): ''' dataset: 输入的训练数据集，即 x_train labels: 输入的训练集对应的类别标签，即 y_tra...

2018-11-24 14:46:24 192

原创 python五大算法之插入排序和归并排序

插入排序def direct_sort(list1): for i in range(1,len(list1)): temp = list1[i] j = i-1 while j &amp;gt;= 0 and temp &amp;lt; list1[j]: list1[j+1] = list1[j] j -...

2018-11-24 14:20:11 325

原创各个字符编码之间的关系

我们常见的编码格式有ASCII码，GBK，Unicode, UTF-8,现在我们来说说他们之间的关系，首先最先出现的是ASCII码表，他是占一个字节的，是一套标准的信息交换表。GBK是国标，它的出现是为了方便使用中文的我们，GBK 向下与 GB 2312 编码兼容，向上支持 ISO 10646.1国际标准，是前者向后者过渡过程中的一个承上启下的产物。ISO 10646 是国际标准化组织 ISO...

2018-11-17 09:54:54 2639

空空如也

空空如也