自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云飞学编程

python新手的自学之路

  • 博客(32)
  • 收藏
  • 关注

原创 Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程

昨天有小伙伴找我,新浪新闻的国内新闻页,其他部分都是静态网页可以抓到,但是在左下方的最新新闻部分,不是静态网页,也没有json数据,让我帮忙抓一下。大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看!抓取目标今天我们的目标是上图红框部分,首先我们确定这部分内容不在网页源代码中,属于js加载的部分,点击翻页后也没有json数据传输!但是发现有个...

2018-09-08 00:37:19 4722 1

原创 python实战,中文自然语言处理,应用jieba库来统计文本词频

模块介绍安装:pip install jieba 即可jieba库,主要用于中文文本内容的分词,它有3种分词方法:1. 精确模式, 试图将句子最精确地切开,适合文本分析:2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。我们用个小例子演示下...

2018-08-09 08:30:05 762

原创 Python学习,多进程了解一下!学爬虫不会用多进程能行吗?

python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成从单进程到 并发执行的转换本来想写多线程的,但是演示效果并不是很好,就改成进程了。其实多进程没有我们想象的那么难...

2018-08-01 14:31:36 335 1

原创 python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件

今天给大家分享一个小网站的数据采集,并写到excel里面!分析网站目标网站是“小咪购”,这里有天猫所有的含有购物券的商品信息,我们今天就来抓它吧!随便找一段文字,然后点击右键查看网页源代码,看看是否存在该文字,如果存在,那么这个网页就是静态网站了!很幸运,这个网站居然是静态的。那就简单了,不需要去分析ajax加载数据或者找json包了,直接获取网页源代码==>...

2018-07-24 15:35:17 8060 1

原创 python有哪些好玩的应用实现,用python爬虫做一个二维码生成器

python爬虫不止可以批量下载数据,还可以有很多有趣的应用,之前也发过很多,比如天气预报实时查询、cmd版的实时翻译、快速浏览论坛热门帖等等,这些都可以算是爬虫的另一个应用方向!今天给大家分享一个二维码生成器的爬虫版本实现!爬虫思路网上有很多的二维码自动生成的网页,它可以将文本、名片、wifi分享等等都以二维码的形式生成,只需要用带有识别二维码的app就可以识别,比如手机浏览器一...

2018-07-21 11:45:41 878

原创 Python老司机手把手带你写爬虫,整站下载妹子图,一次爽个够!

其实很多编程语言都可以做爬虫,例如java、c#、php等等甚至excel都可以抓网页的图表,那么为什么我们要用Python呢?它简单、便捷,而且有好多库可以选择,可以说python是写爬虫的首选了!今天就来带大家写一个简单而又完整的爬虫,我们来抓取整站的图片的,并且保存到电脑上!准备工作工具:Python3.6、pycharm库:requests、re、time、rand...

2018-07-14 14:32:27 3878 2

原创 Python学习,给自己的代码做个合集,定制自己的桌面软件!

在学习Python的过程中,经常会写很多的练手的脚本,那么有没有想过,写到一起呢?当然了,方法有很多,比如写到web网页中,做各种跳转、写到微信中,各种回复关键字调用,还有今天和大家分享的GUI图形用户界面!构建基本框架Python中有标准库tkinter,不需要安装即可使用!可以用来写简单的GUI程序,只需要短短几行代码就可以了,比如下面这个:具体教程大家可以去自行搜索,...

2018-07-10 22:04:39 1098

原创 用python抓取“3d”彩票数据,怎么分析你说了算!

快下班了,正好准备去买彩票,就顺手写了2个脚本,一个用来下载最近的彩票数据,一个用来统计彩票数字,分享给大家!彩票数据获取并写入excel表格数据来源自己看吧~用外链通不过。。。所用库:xlwt,requests,lxml有几点需要注意的:1、构建列表。因为存入excel文件的时候用的是列表,所以新建一个函数,分别取网页5个数据:时间、期数、开奖数123,然后每一页嵌套...

2018-07-05 10:47:21 5132 4

原创 怎么让你的代码更Pythonic?光有技巧可不行,你还需要看这些……

写代码如同写文章,好的文章是反复修改出来的,代码也同样是反复的重构出来的。今天给大家分享下,怎么从一个编程学习者变为一个程序猿(程序媛)!起码不要让别人一看你的代码就知道你是个小菜鸟!我们通常写一个代码,必然会经过一个简单-难-简洁的过程,那么在重构的过程中需要注意哪些呢?1、 代码可以正常运行首先必然要保证,代码可以正常运行!不论你是直接按逻辑写下来还是函数式编程,...

2018-07-02 14:41:21 218

原创 Python学习汇总,做数据采集的一些小技巧,干货满满

学习Python也有一段时间了,在学习过程中不断的练习学到的各类知识,做的最多的还是爬虫,也就是简单的数据采集,有采集图片(这个最多了。。。),有下载电影的,也有学习相关的比如ppt模板的抓取,当然也写过类似收发邮件,自动登录论坛发帖,验证码相关操作等等!这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,在此总结一下,也分享给正在学习的小伙伴安装相关pytho...

2018-06-30 16:39:20 1620

原创 Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的!安装直接pip安装即可:pip install pyquery安装完成后,运行 pip show pyquery,如果出现相关信息即为安装完成!如果pi...

2018-06-27 16:13:51 630

原创 Python爬虫,用第三方库解决下载网页中文本的问题

还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗?先来看看下面2张图,都是某小说网站的小说内容怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库!newspaperpython3.x安装: pip install newspaper3kpython2.7安装: pip install news...

2018-06-26 09:39:25 258

转载 神奇的Python,一行代码能做哪些炫酷的事情?

可能大家在网上已经看过类似的python单行代码可以实现的功能,比如:九九乘法表:print(’ ‘.join([’ ‘.join([‘%s*%s=%-2s’%(y,x,x*y)for y in range(1,x+1)]) for x in range(1,10)]))或者输出前100项斐波那契数列的值:print([x[0] for x in [ (a[i][0], a...

2018-06-23 20:23:04 9693

原创 Python学习,这些高阶函数和高级特性值得一学!

Python语言这么火,不论是对于刚开始学习的编程小白或者有接触过其他语言(c/c++/java等等)的同学来说,写代码的时候难免会受本身惯性思维或者其他语言的影响!解决问题的思路有的时候会比较单一,其实Python有很多灵活的解法,比如python的几个高阶函数或者特性!推导式列表推导式,使用一句表达式构造一个新列表,可包含过滤、转换等操作。语法:[exp for item in...

2018-06-20 17:07:27 238

原创 Python爬虫基础学习,从一个小案例来学习xpath匹配方法

学习目的是为了实践,而实践又可以加深我们的学习效率,今天给大家带来了lxml库的xpath匹配方法的实例!教程大家网上搜索有很多,我们只看实用功能,当然,如果您已经很熟练了,可以跳过不看的!开始前准备版本:python3.6工具:pycharm、lxml库(pip安装即可)内容:新浪新闻搜索关键字抓取相关信息并保存本地txt文档思路我们先打开网页url,看下它的...

2018-06-19 14:06:28 545

原创 python爬虫零基础入门——反爬的简单说明

之前在《如何开始写你的第一个python脚本——简单爬虫入门!》中给大家分享了一下写一个爬虫脚本的基本步骤,今天继续分享给大家在初期遇到的一个很烦人的问题——反爬及处理办法!我们的工具及库为:python3.6、pycharm、requests库基本步骤:获取网页源代码——匹配需要的内容——提取并保存。 在这中间经常遇到这么几类问题:脚本中获取的网页源代码和网页右键查看的源代码不同...

2018-06-15 20:08:08 1055

原创 如何开始写你的第一个python脚本——简单爬虫入门!

好多朋友在入门python的时候都是以爬虫入手,而网络爬虫是近几年比较流行的概念,特别是在大数据分析热门起来以后,学习网络爬虫的人越来越多,哦对,现在叫数据挖掘了!其实,一般的爬虫具有2个功能:取数据和存数据!好像说了句废话。。。而从这2个功能拓展,需要的知识就很多了:请求数据、反爬处理、页面解析、内容匹配、绕过验证码、保持登录以及数据库等等相关知识,今天我们就来说说做一个简单的爬虫,...

2018-06-14 19:26:38 42709

原创 欢迎使用CSDN-markdown编辑器Python爬虫初接触,学会爬虫不抓美女图片干啥!

学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片我们的目标选择唯一图库,url自己去找【人工呲牙笑】这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类上面分类没有这个分类,自己想办法进入哦。。。然后往下拉,就会发现N多的图集,我们先去找找翻页,记得先打开F12开发者工具,然后选择翻页,查看...

2018-06-13 16:50:46 475

原创 为什么说python入门很简单,但是在你这很难?

许许多多的朋友在学习python的时候都会有这样的经历:你辛辛苦苦,埋头苦学了好久基础知识,甚至书都被翻烂了,但是跟着别人的视频或者文章写一个代码,一运行,一堆一堆的error!于是你又要吭哧吭哧的重新排查这个知识点我会,为啥会报错?这个知识点我会,为啥写错了?这里的结果为啥和我想的不一样!大家都说python入门并不难,那么“你”和“大家”的区别在哪?就4个字...

2018-06-12 17:05:17 10406 3

原创 世界杯快到了,看我用Python爬虫实现(伪)球迷速成!

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光!给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧!抓包获取虎扑论坛相关帖子内容,逐条显示!先来观察下网页,打开论坛首页,选择国际足球然后往下拉,找到世界杯相关内容这里就是...

2018-06-10 14:24:43 1825 6

原创 零基础学python之文本和编码问题

字符串是个相当简单的概念:一个字符串是一个字符序列。问题出在”字符”的定义上。在2015 年,”字符”的最佳定义是Unicode字符。因此,从Python 3 的str对象中获取 的元素是Unicode字符Unicode 标准把字符的标识和具体的字节表述进行了如下的明确区分。 字符的标识,即码位,是0~1 114 111的数字(十进制),在Unicode标准中以4~6个十六进制数字...

2018-06-09 15:21:39 249

原创 关于一道面试题的极其无聊的python算法实现

题目是这样的: 某科技公司两位科学家(甲、乙)去吃饭,坐在一家酒店靠近街道的窗口座位吃饭,在等待上菜的过程中,闲极无聊,甲向乙出了一道猜三个女儿年龄的题目。 甲:我有3个女儿,3人年龄之积等于36; 乙:猜不出来; 甲:3个女儿年龄之和等于街道上的行人数; 乙:还是无法确定; 甲:我的大女儿叫苏珊。 乙:哦,我知道了。 ...

2018-06-08 18:23:14 1830 2

原创 Python基础内容:怎样快速理解if __name__ == 'main'语句

name 是当前模块名,当模块被直接运行时模块名为 main 。这句话的意思就是,当模块被直接运行时,以下代码块将被运行,当模块是被导入时,代码块不被运行。 相信好多初学者在学习python的过程中,经常会遇到if name == ‘main’语句,可能你知道它的作用,也可能很模糊,今天就给大家分享下我的理解。我们先新建一个text的py文件,并写入以下内容并运行然后...

2018-06-07 08:55:30 441

原创 几个非常适合新手练习python爬虫的网页,总有一款能搞定!

几个非常适合新手练习python爬虫的网页,总有一款能搞定! 话不多说,直接干货了!头条图集:抓包获取json数据 打开今日头条主页,搜索小姐姐,或者其他你感兴趣的内容,然后点击图集动态加载的json数据就出来了,没有反爬,注意的是,如果不想去内容里面抓图片的话,可以只抓缩略图,就是这个页面显示的图片,它在json数据中的image_list中,注意,将url中的list换成o...

2018-06-06 15:42:05 21937 1

原创 非常适合新手的一个Python爬虫项目: 打造一个英文词汇量测试脚本!

最近朋友在苦学英文,但是又不知道自己学的怎么样了,直到有一天,他找到了扇贝网,里面有个“评估你的单词量”功能非常的好,就推荐给我了! 今天我们就用python做一个小的爬虫,然后自己写一个脚本来实现这个功能吧!目标:打造一个英文词汇量测试脚本url:扇贝网工具:python3.6、pycharm、requests库思路:和网页一样,总共分三步: 先来看看网页中数据,...

2018-06-05 13:58:57 1641 1

原创 代码遇到异常怎么办?不要慌,来看看这个!

先引入一个网上找的表格 异常名称 描述 BaseException 所有异常的基类 SystemExit 解释器请求退出 KeyboardInterrupt 用户中断执行(通常是输入^C) Exception 常规错误的基类 StopIteration 迭代器没有更多的值 GeneratorExit 生成器(...

2018-06-04 16:36:06 1981

原创 简单应用Selenium+PhantomJS来抓取煎蛋网妹子图

那天有朋友找我一起抓妹子图片,像我这么正派的人,肯定是要抱着学习的目的……打开网页,哇!又…又要上火了。。。。话不多说,先看看网页吧!熟练的打开网页,找到妹子图,然后F12打开开发者工具,定位,ok,图片地址找到了,so easy~!,我们写入代码看看WTF~!返回了个空列表?加了header也是这样,为啥呢,来打开源码看看原来是js数据,这就麻烦了,难道先...

2018-06-03 09:47:48 484

原创 Python基础之常用格式化输出字符详解

写代码的时候经常会遇到使用格式化字符的情况,这里将常用的三种情况:%s、%d和%f 用代码给大家详细说明下:%s 字符串%d 整型数字%f 浮点型好了~格式化字符的输出就讲到这里了,如果对大家有帮助,点个赞在走呗!...

2018-06-02 09:41:53 536

原创 Python基础之格式化输出函数format()功能详解

之前发过一篇文章:Python基础之常用格式化输出字符详解但是呢,有时候我们需要用到多个%的时候,用这个就很不方便了,比如数错%数量或者一 一对应的时候。。。这里补充一个字典方式的格式化输出字符的办法print(“double abc is %(a)s%(b)s%(c)s”%{‘a’:’aa’,’b’:’bb’,’c’:’cc’})这种方法呢,最大一个好处是字典格式可以和 js...

2018-06-01 16:46:25 986

原创 新手学python,如何才能更快升职加薪,迎娶白富美,走上人生巅峰

最近在问答里发现好多咨询怎么学习python,或者学习难不难的问题,这里给大家提几点建议:了解自己的目标我开始学编程的时候,连基础的知识都不知道,小白的很!记得我开始看教材,就是输入“hello world”的时候,我也是一脸懵逼,啥是控制台啊,那一堆堆的英文字母是啥意思?打开cmd?cmd是什么。。。idle是什么,编辑器?解释器?变量?赋值?我了个去。。。所以在你准备进入程...

2018-05-31 22:06:38 2801 2

原创 自制一个python下载文件的进度条模块!

我们在做Python爬虫脚本的时候,往往希望在运行的过程中可以实时查看到我的下载进度!之前我也一直想实现这个功能(绝对不是为了炫(装)耀(B)),也查看了很多博客但是各种解决方案都不是很满意(当然,progressBar和tqdm这两个库都是可选择也可操作的),很多时候我们需要一些定制功能的时候就需要考虑自己实现,这个功能其实很简单,我们可以自己去实现它! 实现办法 进度条最大的问题是实现...

2018-05-30 16:47:02 7861 1

原创 Python爬虫框架scrapy抓取旅行家网所有游记!从此出游不发愁!

Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,并且非常方便。Scrapy 使用 Twisted 这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。以上是网上摘录的一段介绍scrapy框架的文字,大过年的,懒癌高发期...安装scrapy,pip可以解决你的问题: pip install scrapy。这里插一句,如...

2018-02-22 15:43:54 696 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除