自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

温华的博客

人海似海却无岸

  • 博客(30)
  • 收藏
  • 关注

原创 如何成为一个高效的电商数据分析师

电商数据分析师在我看来这个角色的定义其实很宽泛,现在从事电商这门生意的人都可以是,而且应该是一名电商数据分析师。理由很简单,做线上生意,除了必不可少的跟人打交道,熟悉各个平台的逻辑、规则,跟数据打交道也一定是家常便饭。在大盘趋势中找到机会赛道,弱水三千,只取一瓢;在竞争局面中分析各家优劣,知己知彼,百战不殆。更不要说自家店铺的方方面面,商品、流量、客户,在主流的电商平台(淘宝天猫,京东,抖音等等),都是以数据的形式呈现。怎么能高效获取这些数据,并且快速合理分析这些数据,产生有价值的信息?且看下文。

2023-09-06 15:47:08 186

原创 asyncio+aiohttp异步爬虫

概念进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源。线程是独立运行和独立调度的基本单元。协程:协程是一种用户态的轻量级线程。协程无需线程上下文切换的开销,也无需原子操作锁定及同步的开销。同步:不同程序单元为了完成某个任务,在执行过程中需靠某种通信方式以协调一...

2020-03-01 13:32:09 1596 1

原创 CentOS上Docker部署Django项目记录

概念Docker 使用 Google 公司推出的 Go 语言进行开发实现(k8s也是Go语言),基于 Linux 内核的cgroup,namespace,以及 AUFS 类的 Union FS 等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器。最初实现是基于 LXC,从 0.7 版本以后开始去除 LXC,转而使用自行开发的 l...

2020-02-02 11:15:54 1271

原创 Django+uwsgi+Nginx部署到云服务器

前言当我们在本地运行Django项目python3 manager runserver但是,这只适用于Django的开发模式,只支持单用户访问,要想部署到服务器上供大量用户访问,综合网上的许多资料,在此罗列几种不同的Django部署方案工具:CentOS7腾讯云服务器、 Python3.6、 MySQL5.7、 Django2.2.7、 uwsgi2.0.18、 Nginx1.16.1...

2020-01-28 12:33:47 423

原创 部署Scrapy项目到腾讯云服务器

前言打算把写完的爬虫项目放到服务器上定时运行,然后了解到有scrapyd这个方便管理爬虫,于是这篇文章的指向是在腾讯云服务器上运行scrapd,然后把我们的爬虫上传到scrapyd,使得scrapyd可以管理爬虫项目(注:没有通过文件传输工具把scrapy爬虫项目的文件上传到服务器,额,我是这么理解的,但是是通过scrapyd上传的egg)操作服务器是刚买的腾讯云的CentOS 7系统,没有...

2020-01-28 12:31:30 755

原创 本地项目提交至GitHub仓库简述

适用情况:本地有一个项目,github上新建了一个仓库只需要进行下面几步就能把本地项目上传到Github:1、在本地创建一个版本库(即文件夹),通过git init把它变成Git仓库2、把项目下的文件复制到这个文件夹里面,再通过git add .把项目添加到仓库3、再通过git commit -m "注释内容"把项目提交到仓库4、看C盘的用户目录下有没有.ssh目录,有的话看下里面有没有...

2020-01-28 12:29:26 113

原创 pymysql流式游标

Python通过pymysql操作向mysql读取千万、百万级别的数据库时如果用传统的fetchall()或fetchone()方法,都是先默认在内存里缓存下所有行然后再处理,大量的数据会导致内存资源消耗光,内存容易溢出此时则建议使用SSCursor(流式游标),避免客户端占用大量内存这个 cursor 实际上没有缓存下来任何数据,它不会读取所有所有到内存中,它的做法是从储存块中读取记录,并...

2020-01-28 12:26:23 1034

原创 Scrapy命令行动态传参给spider

scrapy命令行执行传递多个参数给spider 动态传参在命令行运行scrapy爬虫scrapy crawl spider_name若爬虫中有参数可以控制爬取的页数,那么想要在输入命令行命令时传递页数给爬虫,就可以这样做在spider中定义一个构造函数 def __init__(self, pages=None, *args, **kwargs): super(...

2020-01-28 12:24:04 757

原创 Python操作mysql保存数据时解决数据中含有单引号报错方法

方法mysql在保存视频名称时遇到的数据插入错误,查一下原因发现报错视频名称主要都带有'单引号,会导致SQL语句被截断,从而产生错误解决办法如下:替换成两个单引号即可name = str(name).replace('\'', '\'\'')...

2020-01-28 12:02:12 963

原创 Python3+selenium+driver操作测试

前言因为要用到Selenium的暴力操作某盘,便写一篇记录一下SeleniumSelenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。Selenium 是一套完整的web应用程序测试系...

2020-01-22 16:54:51 400

原创 Python3实现百度云盘资源自动转存

Python3百度云盘资源自动转存Python3实现百度云盘资源自动转存,解决带有密码的分享链接自动转存,不含密码的资源自动转存,同时实现post请求转存以及selenium转存前言最近看上了一个免费的动漫网站,资源一出更得巨快,而且有很多的网盘资源,于是想…于是写了一段代码,爬取了网站的全部资源然后就该一个个的保存到我的云盘中了,问题是手动的话1900多个得累死人,所以就打算通过Py...

2020-01-22 16:47:35 13200 5

原创 Python3解决新版喜马拉雅音频JS反爬

前言应该也有一年了吧,之前也在简书,CSDN上写过爬取喜马拉雅音频的文章,经历了一次喜马拉雅的改版,同时也更新了一波代码最近为了喜欢的雪中,回去重新打算跑一下代码下载音频,这一跑不要紧,结果就发现喜马拉雅又改版了得,又得重新写代码,且这次还加了JS反扒的手段,让我也好好学习了一把,嗯,下面进入正题分析初步分析老样子,首先来看看我们要爬取的目标https://www.ximalaya.c...

2020-01-22 16:44:46 1810

原创 Ubuntu上安装RedisDesktopManager(踩坑)经验总结

前言这几天学习GitHub上的一个项目,需要Linux的环境,于是抄起虚拟机用了以前安装的 Ubuntu。项目用到了 Redis,还推荐使用 RedisDesktopManager 这个GUI,结果光是安装就走了好多弯路,好在最后还是成功了,于是在此总结一下安装Redis 这个想必不用多说,我用的是Ubuntu16.04LTS ,不同版本的各位可以参考一下 ...

2018-09-09 14:53:16 3205

原创 反编译抖音apk

前言这一篇来讲解一下如何反编译抖音的APK,了解过后反编译其实也是挺简单的工具apktoolApktool是google提供的apk的编译工具。 官方使用说明:https://ibotpeaches.github.io/Apktool/install/ 在安装过程中需注意:快速检查Apktool 2.x (apktool 1.5.2以后的版本)是否安装 Jav...

2018-08-07 00:54:19 8450 2

原创 python3安装.whl文件时遇到的超时错误

解决办法: 对应的python版本,在windows的命令行下是输入: pip –default-timeout=100 install -U pip 由于我的电脑上装了2和3,且命名区别了开来,所以对应的为: python3 -m pip –default-timeout=100 install -U pip个人总结: Python安装库的时候的三种方式在...

2018-07-13 18:07:31 2309 2

转载 python装饰器学习

“你会Python嘛?” “我会!” ‘那你给我讲下Python装饰器吧!’ “Python装饰器啊?我没用过哎” 简言之,python装饰器就是用于拓展原来函数功能的一种函数,这个函数的特殊之处在于它的返回值也是一个函数,使用python装饰器的好处就是在不用更改原函数的代码前提下给函数增...

2018-07-13 14:01:14 136

转载 Python中 *args 和 **kwargs 的区别

先来看个例子:def foo(*args, **kwargs): print 'args = ', args print 'kwargs = ', kwargs print '---------------------------------------'if __n...

2018-07-07 20:59:37 185

原创 python爬取网易云音乐评论

前言

2018-07-01 14:17:14 5143 2

原创 python爬取喜马拉雅FM音频

前言之前写过爬取图片的一篇文章,这回来看看如何爬取音频。图片,音频,视频这类都可以通过二进制方式保存到本地下载下来。 爬取图片文章的链接: python爬取图片并以二进制方式保存到本地目标本次我们爬取的目标是–喜马拉雅FM 喜马拉雅FM有数不计的音频,这些音频都有自己的分类,所以进一步给自己抛出一个需求,爬取喜马拉雅所有分类的音频接下来我们来分析这些分类,找到所有分类 h...

2018-06-22 12:05:04 6970 1

原创 python scrapy第一弹--爬取好看的堆糖头像

目标爬取堆糖头像,适合练手堆糖的图片是真的好看啊,虽然女性用户较多,但是真的好看!所以想抓些头像来,这样子就不用愁换头像啦!因为要爬取大量的图片,所以这次用的是python的scrapy框架,正好熟悉一下强大的scrapy由于我的电脑上同时装了Python2和Python3,所以创建scrapy项目时需要注意,有问题的朋友可以参考我之前的一篇博文:解决scrapy创建项目时报错...

2018-06-15 19:09:05 1353

原创 python爬取图片并以二进制方式保存到本地

本篇主要介绍python 爬取图片并以二进制形式保存到本地这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真 写真图片网站链接明确目标,爬取每一页的20张图片,循环生成没一页的url,爬取一页时生成一个对应的页数的文件夹在本地,将图片以二进制保存下来1、 那么第一步就是requests获取网页的源码了,接着就是分析图片所在的标签,也就是我们需要的通过正则获取的内容...

2018-06-14 22:33:01 10050

原创 python将类似json的数据存储到MySQL

将爬取下来的数据以类似json数据的形式存入MySQL由于之前对于爬取下来的数据都是存入MongoDB中,想起来还没有尝试存入MySQL,于是将一篇简单的文章爬取下来,存入MySQL试试这里用到的python模块是pymysql,因为MySQLdb之前已经停止维护首先在cmd中连接MySQL并且创建一个数据库json 在图形化界面workbench中可以看到 接下来就要...

2018-06-10 21:26:34 4379

转载 python 巧用eval函数将str转换成其它数据类型

eval  功能:将字符串str当成有效的表达式来求值并返回计算结果。  语法: eval(source[, globals[, locals]]) -> value  参数:    source:一个Python表达式或函数compile()返回的代码对象    globals:可选。必须是dictionary    locals:可选。任意map对象...

2018-06-10 12:36:15 2234

转载 CMD命令操作MySql数据库操作详解

第一:mysql服务的启动和停止net stop mysqlnet start mysql12第二:登陆mysql –u用户名 [–h主机名或者IP地址] –p密码1说明:用户名是你登录的用户,主机名或者IP地址为可选项,如果是本地连接则不需要,远程连接需要填写,密码是对应用户的密...

2018-06-09 21:50:11 255

转载 windows下将mysql加入环境变量

1.    下载最新版mysql软件,将mysql安装到系统目录中,记录当前安装目录;如安装mysql到C:/program files/mysql目录下2.    打开win7系统——计算机——系统属性3.&...

2018-06-09 21:39:53 4109

原创 Python Matplotlib安装

Python Matplotlib安装  由于需要对数据进行画图分析,需要import Matplotlib 于是在网上找了很多资料,整合起来,方便记忆  在pycharm上安装老是安装不上不知道怎么回事,又试了在cmd上安装,结果老是出现安装超时   普通的安装超时可以用如下方法:pip --default-timeout=100 install -U pip  加大超时时间...

2018-06-08 23:01:14 414

原创 python 将输出打印在同一行

Python2.7 要将输出打印在同一行只需在其后加个“,”即可(被寄几蠢哭),所以记下来!例:n=3while n>0: print '*', n -= 1n=3while n>0: print '*' n -= 1若python3则可以print('*',end="")...

2018-06-04 22:45:04 13800

转载 Terminal, PyCharm常用快捷键

因为在调试scrapy项目时用到了terminal,持续输出,不知道怎么终止,所以找了找,备忘…Terminal快捷键 功能Tab 自动补全 Ctrl+a 光标移动到开始位置 Ctrl+e 光标移动到最末尾 Ctrl+k 删除此处至末尾的所有内容 Ctrl+u 删除此处至开始的所有内容 Ctrl+d 删除当前字符 Ctrl+h 删除当前字符前一个字符 Ctrl+...

2018-06-04 21:01:37 13894 1

原创 Fatal error in launcher: Unable to create process using '"'--解决scrapy创建项目时报错

解决scrapy创建项目时报错:Fatal error in launcher: Unable to create process using ‘”’问题:由于在Windows下同时安装了Python2.7和python3.6.3,分别将应用程序改名为Python2.exe及Python3.exe,导致运行scrapy startproject xxx时出现:解决办法(用...

2018-05-30 21:50:43 4162 1

原创 python爬取爱回收华为手机回收信息

话说在前头,爬爱回收对我这个菜鸟来说,真的很操蛋...首先明确一下目的,本来是想着爬取全部的价格数据,但是想想未免太多,所以先从手机-华为开始爬起(可以自行通用到其他回收品)我们看看具体的信息在哪里可以得到按F12打开Chrome的开发者工具,点击免费查询,通过异步加载得到的数据在这里好嘛,到时候get一下这个url,拿到api的内容就行了,但是url中最后的数字串是变化的(如何获取在后面讲解)既...

2018-05-27 12:24:48 2005 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除