自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(120)
  • 收藏
  • 关注

原创 抓取一嗨租车

一、分析网站 抓取网站的主页:https://booking.1hai.cn/?from=Nav&IsBatch=false 需要选择参数,取车门店、时间等等,不选参数的话,默认的请求对我们没用,通过变更参数才能知道网站是否破解成功 具体分析抓包和请求在代码中会体现出来二、代码import requestsimport datetimeimport randomimport mathimport refrom lxml.html im...

2021-01-12 15:29:40 125 3

原创 python中threading和concurrent实现多线程

一、threadingimport requestsfrom lxml import etreeimport threadingTHREAD_NUM = 10 # 启动十个线程def request(url): """ 发起请求 :param url: 需要请求的url :return: """ response = requests.get(url) if response.status_code == 200:

2020-12-12 19:34:29 88

原创 使用python将数据导入mysql的三种方法

最近经常要将数据导入到mysql中,我写过一次后也是复制粘贴前面写过的,但老是经常忘记写过的放哪去了,索性整理下直接写到博客里面来方法: 1、使用 pymysql 库, 数据一条条插入,或者用Django ORM里面的方法,数据批量插入 2、使用 pandas 库,一次性插入 3、使用 pyspark, 一次性插入(可以不用建表,但是表没有注释, 即 mysql 的 COMMENT,要注释的话可以建空表)方法1:mysql 首先...

2020-06-09 21:55:08 1838 1

原创 hadoop上搭建spark

一、spark安装包链接:https://pan.baidu.com/s/1RyJ2I4wUlVxgaGJXtIsBNw提取码:rrzz复制这段内容后打开百度网盘手机App,操作更方便哦二、spark配置1. 上传并解压缩spark tar -xvf spark-2.4.4-bin-hadoop2.7.tgz 移动到 /usr/local/目录下 mv spark-2.4.4-bin-hadoop2.7 /usr/local/spark...

2020-05-24 22:40:58 132

原创 hadoop上搭建hive

一、hive压缩包链接:https://pan.baidu.com/s/1RyJ2I4wUlVxgaGJXtIsBNw提取码:rrzz复制这段内容后打开百度网盘手机App,操作更方便哦二、hive配置1. 上传hive压缩包解 压: tar -xvf apache-hive-1.2.2-bin.tar.gz移动到 : mv apache-hive-1.2.2-bin /usr/local/hive2. 配置环境变量vi /etc/prof...

2020-05-17 16:08:53 141

原创 window下搭建虚拟机和hadoop集群

一、windows下搭建虚拟机 1. 创建虚拟机01 2. 创建虚拟机02 3. 创建虚拟机03 4. 创建虚拟04 5.创建虚拟05 6. 创建虚拟机06 (根据自己的需求选择配置,我把...

2020-05-16 16:04:51 215

原创 pipenv的使用

1. 介绍 pipenv是python官方推荐的包管理工具,这个是编写requests库的大佬写的,它集成了virtualenv, pip和pyenv三者的功能。其目的旨在集合了所有的包管理工具的长处,如: npm, yarn, composer等的优点。自动为项目创建和管理虚拟环境2. 安装pip install pipenv3. 初始化pip...

2020-04-30 23:03:18 222

原创 PySpark读取并清洗json文件数据

pyspark读取json文件清洗并写入json文件from pyspark.sql import SparkSessiondef getSqlAndSpark(): """ 获取SQL和Spark的对象, SQL的没写,暂时不用 :return: """ spark = SparkSession \ .builder \ ...

2020-04-25 21:49:14 1127

原创 PySpark读取并清洗mongoDB数据

windows下pyspark读取mongo中的数据并清洗重复数据1. mongo中样例数据// 1{ "_id": ObjectId("5e9aebe49e8fb72b646766ec"), "key": "STACEE", "name": "Observations of the BL Lacertae Object 3C 66A with STACEE",...

2020-04-25 21:29:20 434

原创 Linux环境下配置python3环境

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develwget https://www.python.org/ftp/python/3.6.5/Python...

2020-03-31 18:48:07 128 2

原创 爬虫: 解析cookie和data字符串得到json格式

1. 为什么写这篇博客 方便自己用和提供给他人用2. 写这个的原因 我们在写爬虫的时候抓包的过程中,往往都会看请求中带有的cookie和发送的参数,但是我们用的过程中,cookie可以直接粘在headers头里面。但有时也要单独写,但是data是一定要单独写成json格式,如果参数一多,我遇到过最多的30多个参数的,如果一个个的复制粘贴的话,得弄很久,而且有时候弄...

2020-03-19 15:51:44 405

原创 Python config 配置 之 configparser 使用方法

1. 为什么写这篇文章 我使用配置的以下几种方式: 1. 类中的 __init__ 初始化方法中 2. 单独新建一个py文件来存放config配置 3. 使用const库来存放配置 看到其他人用的配置文件方式用的是 configparser ,我原则是看到好东西就想学,然后自己查了下资料...

2020-03-05 11:13:34 532

原创 PySpark RDD 之 takeSample

1. pyspark 版本 2.3.0版本2. 官网takeSample(withReplacement,num,seed=None)[source]¶Return a fixed-size sampled subset of this RDD.中文:返回此RDD的固定大小的采样子集。Note This method should only be ...

2019-12-23 22:01:42 472

原创 PySpark RDD 之 foreach

1. pyspark 版本 2.3.0版本2. 官网foreach(f)[source]Applies a function to all elements of this RDD.中文:将函数应用于此RDD的所有元素。>>> def f(x): print(x)>>> sc.parallelize([1, 2, ...

2019-12-15 19:05:41 2888

原创 PySpark RDD 之collect、 take、top、first取值操作

1. pyspark 版本 2.3.0版本2. collect()collect()[source]Return a list that contains all of the elements in this RDD.中文:返回包含此RDD中的所有元素的列表。Note This method should only be used if the res...

2019-12-14 17:07:11 1572

原创 PySpark RDD 之 countByValue

1. pyspark 版本 2.3.0版本2. 官网 countByValue()[source] Return the count of each unique value in this RDD as a dictionary of (value, count) pairs. 中文:将此RDD中每个惟一值的计数作为(值、计数...

2019-12-12 22:18:01 301

原创 PySpark RDD 之 reduce

1. pyspark 版本 2.3.0版本2. 官网 reduce(f)[source] Reduces the elements of this RDD using the specified commutative and associative binary operator. Currently reduces partitions lo...

2019-12-11 22:37:53 272

原创 PySpark 之 连接变换 union、intersection、subtract、cartesian

1. pyspark 版本 2.3.0版本2. 解释 union() 并集 intersection() 交集 subtract() 差集 cartesian() 笛卡尔union 官网:...

2019-12-09 22:36:10 680

原创 PySpark RDD 之 filter

1. pyspark 版本 2.3.0版本2. 官网filter(f)[source]Return a new RDD containing only the elements that satisfy a predicate.中文:返回仅包含满足条件的元素的新RDD。>>> rdd = sc.parallelize([1, 2, 3...

2019-12-08 17:34:15 2353

原创 PySpark 之 flatMap

1. pyspark 版本 2.3.0版本2. 官网flatMap(f,preservesPartitioning=False)[source] Return a new RDD by first applying a function to all elements of this RDD, and then flattening the resul...

2019-12-08 16:30:42 2089

原创 PySpark 之 map

1. pyspark 版本 2.3.0版本2. 官网 map(f,preservesPartitioning=False)[source] Return a new RDD by applying a function to each element of this RDD. 中文翻译:通过对这个RDD的每...

2019-12-08 15:30:51 1418

原创 PySpark 之 parallelize

1. pyspark 版本 2.3.0版本2. 官网 parallelize(c,numSlices=None)[source] Distribute a local Python collection to form an RDD. Using xrange is recommended if the input represents ...

2019-12-08 14:12:09 393

原创 个人对 PySpark 的看法和见解

1. 介绍下为什么重新写pyspark的博客 很久没写过关于pyspark的博客了,最近工作中要用到,所以就重新捡起来了,事先说一下,我pyspark也不怎么样,一边看官网、一边自己查资料并总结出来的,有些大牛喜欢看源码,对于我们这些人来说,会用就行,什么原理暂时不说,等学会了有时间再去看,我自己从最开始的方法写起,一个算子一个博客,结合他人的思路来多方面的介绍这个算子。...

2019-12-07 21:16:20 667 1

原创 python爬虫项目

整理了自己的今年写的爬虫及其他项目代码,里面有的使用requests,也有的使用的scrapy爬虫框架,抓取了以下这些网站,网站不更新的话代码可以直接运行,里面包含了网站的破解、抓取、解析GitHub:https://github.com/Gscsd8527/AllProject每个文件夹的名字都是对应的抓取网站,抓取各网站数据:CCF :https://www.ccf.org.c...

2019-11-17 21:57:03 378

原创 Kaggle网站数据集抓取

抓取kaggle网站代码github:https://github.com/Gscsd8527/AllProject/blob/master/Kaggle/new_kaggle.pyimport requestsimport reimport jsonimport uuidimport datetimeBASE_URL = 'https://www.kaggle.com'...

2019-11-17 21:06:10 1065

原创 Selenium 设置元素等待的三种方式

Selenium 设置元素等待的三种方式 1. sleep 强制等待 2. implicitly_wait() 隐性等待 3. WebDriverWait()显示等待三种方式的优缺点1. sleep 强制等待 from selenium import webdriverfrom time import sleepdriver = webdr...

2019-10-31 14:29:22 1100

原创 Linux学习笔记

学习Linux过程中记录的命令,对工作非常有帮助Linux个别知识点: 1. 隐藏文件: 隐藏文件的设计初衷是告诉用户这是个系统文件,除非确定要动他,不然不要随便使用他 2. 软链接与硬链接 软链接的特性(类似快捷方式): 1. 文件权限是lrwxrwxrwx 2. 文件很小,只是一...

2019-08-28 21:49:45 108

原创 python进度条

最近写的代码中写了很多函数,都是按步骤调用的,想看代码执行到第几个函数了,但又不想在每个函数中打印来表示执行到哪了,这时候就想用进度条来显示了,看网上没有我这种思路来实现的,自己来写个import timeimport tqdmdef work1(): time.sleep(1)def work2(): time.sleep(1)def work3(): t...

2019-06-22 22:45:39 2715

转载 老板啥都懂,天天来套路我

今天 我被老板叫到办公室 ...

2019-06-22 21:36:46 305 1

原创 Django admin后台管理的配置

最近整理了一些关于Django admin后台管理的资料model:from django.db import modelsfrom django.utils import timezonefrom django.contrib.auth.models import User# Create your models here.class Post(models.Model):...

2019-05-31 22:04:23 408

原创 Django之Form表单

在Django中有一个验证神器,那就是Form表单,它会自动生成你所需要的表单内容,并自动为你验证是否正确,并可以返回错误的详细信息(前提是你写的详细)。Django中的Form使用时一般有两种功能: 1、生成html标签 2、验证输入内容接下来我介绍下Django模板中的表单和form表单的区别、1. Django模板中的表...

2019-05-25 23:53:12 362

原创 Studio 3T破解

启动Studio 3T发现30天试用已过期解决办法:1. 在任意目录下新建一个.bat文件,名字任意取,文件内容如下@echo offECHO 重置Studio 3T的使用日期......FOR /f "tokens=1,2,* " %%i IN ('reg query "HKEY_CURRENT_USER\Software\JavaSoft\Prefs\3t\mongochef...

2019-04-19 17:15:06 4109 4

转载 张一鸣:10年面试2000人,我发现混的好的人,全都有同一个特质

张一鸣演讲整理:为何毕业多年后原本水平差不多的同学都拉开了差距?大家好!各位都非常年轻,我今天来的时候挺有压力。因为我毕业快11年了,看到你们,真是觉得“长江后浪推前浪”。我去年参加了武汉的校招,感觉新一代年轻人的素质确实都非常好。我昨天就在想,今天应该跟大家分享什么。想了想,先把题目拟出来,把乔布斯的“Stay hungry, Stay foolish”,改成“Stay hung...

2019-03-28 21:45:28 569

转载 HTTP中GET与POST的区别

GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。你可能自己写过无数个GET和POST请求,或者已经看过很多权威网站总结出的他们的区别,你非常清楚知道什么时候该用什么。当你在面试中被问到这个问题,你的内心充满了自信和喜悦。你轻轻松松的给出了一个...

2019-03-26 12:39:03 402

原创 基于Django开发的学生信息管理系统

一、 功能实现对学生对个人信息的增删查改 实现后台对所有学生信息的操作二、开发工具 Windows + Pycharm + Mysql + Django三、git地址 https://github.com/Gscsd8527/StudentSystem四、代码实现 1. modelfrom django.db import models...

2019-03-22 23:35:00 13438 40

原创 pipenv的安装和使用

一、安装 pip install pipenv二、使用 1. 切换到目标目录下,输入pipenv – –two 或者 pipenv – –three,分别对应python2、python3环境 然后该目录下会有一个Pipfile文件,内容为 ...

2019-03-17 20:59:02 11640

原创 pip安装超时( Read timed out)解决办法

一、起因 之前用的是virtualenv 创建虚拟环境,后来发现pipenv比virtualenv强大多了,一直想用这个试试,每次下载都报pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read ti...

2019-03-17 19:11:59 6490 7

原创 Chrome jsonView插件安装

1. 下载jsonView插件      进入下载链接:https://github.com/search?utf8=%E2%9C%93&q=jsonview,点击进去下载zip文件,解压到本地,放置到一个目录中,解压后的文件名为JSONView-for-Chrome-master 2. 安装插件    打开chrome扩展程序(地址栏输入chrome://extensio...

2019-02-21 19:54:53 195

原创 使用PIL剪切图片和拼接图片

因工作需要,接触到了PIL这个包,看其他人的博客踩了一些坑,有些博客并没有注明各个位置参数的含义,今天我就将他补全切图   1.  首先先下载一张图片,我使用的是1200*1200像素的图片,将它放置在G盘的img目录下              2.  我将这张图片切成四等分,我新建了两个文件,分别是img1、img2,用来存放图片               3. 代码...

2018-10-20 20:07:03 4990 5

原创 调用API中关联的证书问题

       我们在调用API时,会涉及到证书问题,这个是最麻烦的,他会将我们请求的数据进行各种加密,这个加密过程中往往加了时间戳、加密证书和公钥证书等一些数据在里面,还有加密的顺序等等,更恶心的还会将加密前的数据进行一次或多次加密,要多猥琐就有多猥琐,最终的请求中还使用了前面证书对数据进行签名,数据即使被别有用心的人拿到了,他不知道加密的顺序和加密的方法,还有证书的话,即使拿到了也没有用。 ...

2018-09-17 18:17:15 722

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除