步骤1:安装python3.7
步骤2:安装PyCharm,并配置python3.7路径
步骤3:pip安装Django模块
步骤4:新建Django项目
步骤5:按照博客地址建好Django
python django pycharm mysql_malingyu的专栏-CSDN博客
步骤6:安装pyspark模块、百度网盘地址链接:https://pan.baidu.com/s/1E_mi2FzoLiEMHvqUbDc50A
提取码:goui
matplotlib、numpy模块,下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
安装pyspark模块,下载pyspark解压到本地
pip install D:\SoftwareWork\P_Work\topicfour\venv\Scripts\pyspark
安装matplotlib
pip install numpy-1.21.5+mkl-cp37-cp37m-win_amd64.whl
安装numpy
pip instll matplotlib-2.2.5-cp37-cp37m-win_amd64.whl
引用的时候,不会报错。
步骤7:修改settings.py文件,添加spark目录
import sys if 'SPARK_HOME' not in os.environ: os.environ['SPARK_HOME'] = 'D:\Software\sparkfornet/spark-3.0.1-bin-hadoop2.7' SPARK_HOME = os.environ['SPARK_HOME'] PY4J_DIR=os.path.normpath(SPARK_HOME+'\python\lib') PYSPARK_DIR=os.path.normpath(SPARK_HOME+'\python') sys.path.insert(0,PY4J_DIR) sys.path.insert(0,PYSPARK_DIR)
说明:其中D:\Software\sparkfornet/spark-3.0.1-bin-hadoop2.7为spark的目录
\python\lib为PY4J的目录
步骤8:修改项目中的view.s文件
import numpy import matplotlib.pyplot as plt from pyspark import SparkContext, SparkConf, SQLContext
def index(request): conf = SparkConf().setMaster("local").setAppName("apitest") sc = SparkContext(conf=conf) spark = SQLContext(sc) user = sc.textFile("user.txt") a = user.first() user_fields = user.map(lambda line: line.split("|")) # 统计总的用户数 num_users = user_fields.map(lambda fields: fields[0]).count() print(user.first()) data = user_fields.map(lambda x: int(x[0])).collect() x = numpy.arange(1, 100, 1) # 通过python中的matplotlib生成图表提供给分析师分析 plt.plot(x, data) plt.xlabel(u"time/s") # X轴标签 plt.ylabel("data") # Y轴标签 plt.title("simple plot") # 标题 plt.show() for i in range(len(data)): if (data[i] > 10): data[i] = (data[i - 1] + data[i + 1]) / 2 plt.plot(x, data) plt.xlabel(u"time/s") # X轴标签 plt.ylabel("data") # Y轴标签 plt.title("simple plot") # 标题 plt.show() return HttpResponse(u"你好")
步骤9:运行程序后,postman进行测试
说明:其中apitest为app应用的名称,应根据自己实际的app名称进行修改。
至此实现了在django里面使用spark模块进行数据分析。