自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 解决python pip请求超时问题

pip请求超时解决办法: 第一种,pip版本更新,输入 python -m pip install --upgrade pip 如果第一种更新完毕还是请求超时,就进行第二种: 切换源 将源切换为清华大学的源 pip config set global.index-url https://pypi...

2020-04-17 17:20:40 61 0

原创 python+sparkStreaming+kafka之大数据实时流

首先需要的是环境,我安装的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因为spark是Scala语言写的,所以这个必须的安装,大数据传输存储需要用到Hadoop,HDFS,所以Hadoop需要安装,streaming接受流数据源有两种大的方式,一种是文件和套接字...

2019-12-23 16:31:20 311 0

原创 pyspark之RDD,Data Frame,SQL Context 转换与操作

# 加载数据 Path='file:/home/swt/pythonwork/PythonProject/' RawUserRDD = sc.textFile(Path+'data/u.user') RawUserRDD.count() # 查看RDD数据...

2019-12-18 11:12:43 187 0

原创 pyspark之LogisticRegression算法

import sys import time import pandas as pd import matplotlib.pyplot as plt from pyspark import SparkConf,SparkContext from pyspark.mllib.classificati...

2019-12-17 11:48:55 51 0

原创 pyspark之二分类决策树算法

# 首先还是设定数据目录,取决于你的pyspark是什么方式启动的 global Path if sc.master[0:5] == 'local': Path = 'file:/home/swt/pythonwork/PythonProject/'...

2019-12-17 11:29:17 118 0

原创 pyspark运行ALS推荐算法

首先创建读取路径,这个取决于你的pyspark是以什么方式启动的 global Path if sc.master[0:5] == 'local': Path='file:/home/swt/pythonwork/PythonProject/' el...

2019-12-16 12:30:40 142 0

原创 pyspark RDD基本操作

RDD转换运算 # 创建intRDD intRDD = sc.parallelize([3,1,2,5,5,6]) intRDD.collect() [3, 1, 2, 5, 5, 6] # 创建stringRDD stringRDD = sc.parallelize(['apple...

2019-12-13 18:11:42 17 0

原创 keras Embedding层报InvalidArgumentError: indices[23,18] = -1 is not in [0, 480)类似错误解决办法

对于码农来说,最害怕的就是各种bug。关于InvalidArgumentError: indices[23,18] = -1 is not in [0, 480)这个类型的错误,我之前也遇到了,然后在网上找了半天也没有解决,最后想了想看了看数据,词向量里面有负值(<0的值),我想和这个有没有...

2019-12-06 11:26:18 882 0

原创 基于LSTM网络的文本生成

import tensorflow as tf import numpy as np import os #使用cpu进行运算,注释掉使用gpu运算 os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" os.env...

2019-11-29 10:49:20 290 0

原创 Linux安装kafka,flink并运行word count.py测试demo

Linux上安装kafka与flink非常简单(前提需要Java环境),首先到官网下载压缩包,kafka官网选择适合自己的tgz包,下载完可以放到usr/local/下(我的放到这个目录下,可以根据自己的情况), 之后进行解压缩 tar -xzvf 压缩包.tgz 然后进入解压目录启动zooke...

2019-11-21 15:55:25 89 0

原创 centos7成功安装python3环境selenium+chrome+chrome driver

首先安装chrome浏览器,首先可以先建一个文件加用来存放chrome和chrome driver文件。比如我的就在/usr/local/chrome wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_...

2019-11-01 17:01:43 132 0

原创 Tensorflow之CNN网络分类mnist数据集

本文是用专为图像而生的CNN网络学习mnist数据集并测试准确度,全部代码如下 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_da...

2019-10-15 11:48:01 45 0

原创 Tensorflow之基本操作

Tensor flow是现在最流行的深度学习框架之一,要想使用它,就得按照七要求使用Tensor flow自己的生态环境,那就从最基础的开始学起 #Variable用法 import tensorflow as tf w = tf.Variable([[0.5,1.0]]) x = tf.Va...

2019-10-09 15:15:06 41 0

原创 手写简单神经网络

最进在学神经网络,所以就得先从基础得做起,手写神经网络(斜眼笑),那就~开始吧!! import numpy as np #sigmoid激活函数 def sigmoid(x,deriv=False): if deriv == True: return x*(1-x) ...

2019-08-20 15:30:50 112 0

原创 keras深度学习框架进行文本分类

近期接手的一个项目就是深度学习文本分类,我选用的是keras深度学习框架,下面把处理过程给大家分享一下,首先是要加载数据,我的数据是在文档里面,首先读取csv文件选取字段。 def laod_csv(): print('正在加载数据...') data = pd...

2019-06-27 19:07:39 513 0

原创 利用eda函数对文本数据进行增强

近期接手一个项目,时关于深度学习文本分类,我用的是keras深度学习框架LSTM模型,学习前首先得对数据进行处理,由于文本类别比较多有96类,并且有部分类别数据量比较少,这将会影响算法的拟合,我首先想到的是过采样的方法,但是过采样对文本数据无用,所以得先进行词向量的转换,转换完之后我发现准确率还是...

2019-06-27 18:11:28 615 0

原创 特征工程常用的函数及使用方法

近期参加了天池的数据可视化比赛,我在队伍中担当的是特征工程和后端,虽然但最后后端部署到服务器上的时候我不会,但是,这次比赛也让我学到了许多东西,下面我来总结一下我做特征工程常用的方法 第一个最简单的读写文件,pandas库里面有许多读写文件的函数,支持的文件类型也有很多,常见的csv,excel,...

2019-05-13 10:23:53 239 0

原创 selenium爬取珍爱网用户信息

近期接到一个任务,爬取珍爱网上的用户信息,这个对单身的我来说瞬间提起了兴趣,这有可能是我脱单的开始,哼哼,不装逼了,先来看看怎么帮我脱单,嘻嘻嘻 import requests import time import re from lxml import etree from selenium i...

2019-05-04 16:53:00 725 0

原创 Ubuntu16.4安装python3+selenium+chrome driver自动化测试

项目有需求,咱们就的解决,首先安装python3,依次执行如下代码: wget http://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz tar -xvzf Python-3.6.4.tgz cd Python-3.6.4 ./confi...

2019-04-29 23:39:16 358 0

原创 ubuntu16.4 etree包报错问题解决

近期项目需要etree和Ubuntu系统,所以在系统上运行的时候报错no mode name ‘etree’,这个是因为有些lxml包中不包含etree插件,所以的重新下载 ,我在网上看到有解决办法输入如下命令: sudo apt-get install python-dev python3-de...

2019-04-29 22:42:38 60 0

原创 python baostock模块应用

python baostock模块是专门用来获取股票的一些参数,是因为我现在需要一些数据,所以在这分享一下它的用法,首先下载安装,pip install baostock,就ok了,官方文档,用法也很简单: import baostock as bs import pandas as pd #登...

2019-04-12 10:33:09 1403 0

原创 处理Django post请求接收不到嵌套的参数的情况

最近在做的一个项目需要python做服务端,我一个数据分析的来写后端了,哈哈,这是要发展为全栈了吗。那就全栈吧,~~ 首先呢,我是这样写的: Django端接收: def cipin_statistics(request): result = request.POST print(result...

2019-03-20 18:14:57 317 0

原创 在未知文件编码格式的情况下修改文件编码格式

在项目中有遇到了一个问题,原因是客户上传的文件编码不确定,一般是ANSI格式,但我处理的时候必须是utf-8格式,所以,需要把文件的编码进行修改,我用python3进行了修改,代码如下: import chardet import codecs #修改文件格式 def convert(file...

2019-03-20 17:29:00 218 0

原创 记一次爬虫项目-杭州19楼

这个项目我爬的是19楼中我要爆料模块,具体代码如下: import requests import re import time import random import threading import pymysql from lxml import etree from bs4 import...

2019-03-15 12:39:07 1649 0

原创 python自然语言处理之情感分析--snownlp包的使用

再此之前我一直在寻找情感分析的博客,也看到了有多种情感分析的方法,有用机器学习算法来学习,不过这种方法需要自己标注一些训练数据,这个工作量是很大的,我也研究过nltk包的使用,但研究了半天始终是有关英文的自然语言处理,对于中文来说有些方法不适用,偶然看到snownlp包,专为中文自然语言处理写的工...

2019-02-25 17:21:06 2304 3

原创 基于selenium无头请求爬取微博文章

这个爬虫的初衷是源于公司的一个项目,公司在建设舆情分析系统,所以需要大量的数据,当然微博这个较大的交际圈有大量的信息,所以老大让我爬微博,但是又给我给了个需求,要自定义爬虫,用户输入一个关键字,爬取和这个关键字有关的全部内容,像这个样子: 在搜索框内输入咸猪手,把所有的咸猪手全部揪出来,嘻嘻,我...

2019-02-21 15:28:52 165 4

原创 记用Fiddler抓包爬取pc端微信公众号文章

首先呢,得会用Fiddler这个工具,他下载比较容易,网上一找一大堆,下载完之后呢要对他进行一些设置,我抓取的是pc端的微信文章,这里有详细的配置说明(https://blog.csdn.net/Tester_xjp/article/details/80087014),配置完成之后,可以打开浏览器...

2019-02-20 23:40:57 6084 2

原创 python自然语言处理-学习笔记(三)之文本相似度计算

''' 文本相似度计算方法 ''' #1,编辑距离计算 ''' 是指两个字符串之间,由一个转成另一个所需的最少操作次数,如果它们就 距离越大,说明它们越不同,预科的编辑操作包括将一个字符替换成另一个字符,插...

2019-01-24 14:47:16 966 0

原创 jieba模块的主要功能

import jieba import jieba.analyse import jieba.posseg as pseg #jieba的主要功能 #1,分词 text = '''1月17日,上虞区委书记陶关锋在全区机构改革动员大会上宣布,国家级杭州湾上虞经济技术开...

2019-01-22 17:58:21 943 0

原创 python自然语言处理-学习笔记(二)之nltk包常用的功能

1,语料库的获取 &amp;gt;&amp;gt;&amp;gt;import nltk &amp;gt;&amp;gt;&amp;gt;nltk.corpus.gutenberg.fileids() ['austen-emma.txt&...

2019-01-21 17:29:37 124 0

原创 python自然语言处理-学习笔记(一)之nltk入门

nltk学习第一章 一,入门 1,nltk包的导入和报的下载 import nltk nltk.download() (eg: nltk.download(‘punkt’),也可以指定下载那个包) 2,book图书集,是一些数据, from nltk.book import * ***...

2019-01-17 16:33:34 633 0

原创 虚拟机安装单机python+spark环境

python环境Linux系统是自带的,你可以输入python来查看版本(python2版本),输入python3(python3版本)查看。spark安装前提是要下载压缩包,根据个人需求在官网下载压缩包,放到虚拟机得 /home/用户 目录下(我下的是spark-2.1.1-bin-hado...

2019-01-03 17:14:41 250 0

原创 基于python+spark环境下的虚拟机中安装Java

虚拟机下安装Java环境,首先得先下载jdk压缩包,这个可以到官网上下载,在这里就不再阐述了。下一步就是把下载下来的压缩包移动到虚拟机下,建议直接移动到home/用户名/ 目录下,也就是终端打开之后默认目录,然后就是解压,命令是 我下载的是jdk-8u101-linux-x64.tar.g...

2019-01-03 11:05:27 178 0

原创 利用jieba进行分词,词云图展示

import jieba from scipy.misc import imread from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator import matplotlib.pyplot as plt import panda...

2018-12-15 09:23:22 2465 0

原创 自定义K-领进算法的实现

k-邻近算法精髓在于欧式距离公式,我们就是模仿这个过程来实现算法,代码如下: import numpy as np def knn_classify(dataset, labels, new_input, k, weight='uniform'): '�...

2018-11-24 14:46:24 61 0

原创 python五大算法之插入排序和归并排序

插入排序 def direct_sort(list1): for i in range(1,len(list1)): temp = list1[i] j = i-1 while j &amp;amp;gt;= 0 and t...

2018-11-24 14:20:11 75 0

原创 各个字符编码之间的关系

我们常见的编码格式有ASCII码,GBK,Unicode, UTF-8,现在我们来说说他们之间的关系,首先最先出现的是ASCII码表,他是占一个字节的,是一套标准的信息交换表。 GBK是国标,它的出现是为了方便使用中文的我们, GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646...

2018-11-17 09:54:54 276 0

原创 以字典的方式读写csv文件

#写 def write_dict(): with open('phone.csv','w')as f: writer = csv.DictWriter(f, fieldnames=(&amp;quot;id&a...

2018-11-14 13:14:20 2021 1

原创 使用selenium爬取淘宝网页商品

import json from urllib.parse import quote from selenium.common.exceptions import TimeoutException from selenium import webdriver from selenium.webdr...

2018-11-10 17:19:13 392 0

原创 python五大基本算法之快速排序

快速排序的思想:首先选取一个基准数(一般为第一个数),然后将比它小得数放到左边,比它大的数放到右边,这一个过程称为一趟快速排序。 一趟快速排序的算法是: 1)设置两个变量i、j,排序开始的时候:i=0,j=N-1; 2)以第一个数组元素作为关键数据,赋值给key,即key=A[0]; 3)从j开始...

2018-11-02 20:44:40 99 0

提示
确定要删除当前文章?
取消 删除