自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云飞学编程

python新手的自学之路

原创 Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程

昨天有小伙伴找我,新浪新闻的国内新闻页,其他部分都是静态网页可以抓到,但是在左下方的最新新闻部分,不是静态网页,也没有json数据,让我帮忙抓一下。大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看! 抓取目标 今天我们的目标是上图红框部分,首先我们确定...

2018-09-08 00:37:19 2055 1

原创 python实战,中文自然语言处理,应用jieba库来统计文本词频

模块介绍 安装:pip install jieba 即可 jieba库,主要用于中文文本内容的分词,它有3种分词方法: 1. 精确模式, 试图将句子最精确地切开,适合文本分析: 2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 3. 搜索引擎模...

2018-08-09 08:30:05 213 0

原创 Python学习,多进程了解一下!学爬虫不会用多进程能行吗?

python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成从单进程到 并发执行的转...

2018-08-01 14:31:36 175 1

原创 python简单应用!用爬虫来采集天猫所有优惠券信息,写入本地文件

今天给大家分享一个小网站的数据采集,并写到excel里面! 分析网站 目标网站是“小咪购”,这里有天猫所有的含有购物券的商品信息,我们今天就来抓它吧! 随便找一段文字,然后点击右键查看网页源代码,看看是否存在该文字,如果存在,那么这个网页就是静态网站了!很幸运,这个网站居然是静态...

2018-07-24 15:35:17 4689 1

原创 python有哪些好玩的应用实现,用python爬虫做一个二维码生成器

python爬虫不止可以批量下载数据,还可以有很多有趣的应用,之前也发过很多,比如天气预报实时查询、cmd版的实时翻译、快速浏览论坛热门帖等等,这些都可以算是爬虫的另一个应用方向! 今天给大家分享一个二维码生成器的爬虫版本实现! 爬虫思路 网上有很多的二维码自动生成的网页,它可以将文本、...

2018-07-21 11:45:41 689 0

原创 Python老司机手把手带你写爬虫,整站下载妹子图,一次爽个够!

其实很多编程语言都可以做爬虫,例如java、c#、php等等甚至excel都可以抓网页的图表,那么为什么我们要用Python呢?它简单、便捷,而且有好多库可以选择,可以说python是写爬虫的首选了! 今天就来带大家写一个简单而又完整的爬虫,我们来抓取整站的图片的,并且保存到电脑上! ...

2018-07-14 14:32:27 2819 2

原创 Python学习,给自己的代码做个合集,定制自己的桌面软件!

在学习Python的过程中,经常会写很多的练手的脚本,那么有没有想过,写到一起呢?当然了,方法有很多,比如写到web网页中,做各种跳转、写到微信中,各种回复关键字调用,还有今天和大家分享的GUI图形用户界面! 构建基本框架 Python中有标准库tkinter,不需要安装即可使用!可以...

2018-07-10 22:04:39 732 0

原创 用python抓取“3d”彩票数据,怎么分析你说了算!

快下班了,正好准备去买彩票,就顺手写了2个脚本,一个用来下载最近的彩票数据,一个用来统计彩票数字,分享给大家! 彩票数据获取并写入excel表格 数据来源自己看吧~用外链通不过。。。 所用库:xlwt,requests,lxml 有几点需要注意的: 1、构建列表。因为存入exce...

2018-07-05 10:47:21 3374 1

原创 怎么让你的代码更Pythonic?光有技巧可不行,你还需要看这些……

写代码如同写文章,好的文章是反复修改出来的,代码也同样是反复的重构出来的。今天给大家分享下,怎么从一个编程学习者变为一个程序猿(程序媛)!起码不要让别人一看你的代码就知道你是个小菜鸟! 我们通常写一个代码,必然会经过一个简单-难-简洁的过程,那么在重构的过程中需要注意哪些呢? 1、&...

2018-07-02 14:41:21 107 0

原创 Python学习汇总,做数据采集的一些小技巧,干货满满

学习Python也有一段时间了,在学习过程中不断的练习学到的各类知识,做的最多的还是爬虫,也就是简单的数据采集,有采集图片(这个最多了。。。),有下载电影的,也有学习相关的比如ppt模板的抓取,当然也写过类似收发邮件,自动登录论坛发帖,验证码相关操作等等! 这些脚本有一个共性,都是和web相...

2018-06-30 16:39:20 1142 0

原创 Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的! 安装 直接pip安装即可:pip install pyque...

2018-06-27 16:13:51 498 0

原创 Python爬虫,用第三方库解决下载网页中文本的问题

还在辛辛苦苦的查找网页规律,写正则或者其他方式去匹配文本内容吗?还在纠结怎么去除小说网站的其他字符吗? 先来看看下面2张图,都是某小说网站的小说内容 怎么样,是不是很简洁!这就是今天给大家介绍的库,newspaper库! newspaper python3.x安装: pip...

2018-06-26 09:39:25 126 0

原创 Python爬虫,抓取淘宝商品评论内容!

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿“德州扒鸡”做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击一个商品进入,在点...

2018-06-24 17:12:22 7733 1

转载 神奇的Python,一行代码能做哪些炫酷的事情?

可能大家在网上已经看过类似的python单行代码可以实现的功能,比如: 九九乘法表: print(’ ‘.join([’ ‘.join([‘%s*%s=%-2s’%(y,x,x*y)for y in range(1,x+1)]) for x in range(1,10)])) 或者输...

2018-06-23 20:23:04 2635 0

原创 Python学习,这些高阶函数和高级特性值得一学!

Python语言这么火,不论是对于刚开始学习的编程小白或者有接触过其他语言(c/c++/java等等)的同学来说,写代码的时候难免会受本身惯性思维或者其他语言的影响!解决问题的思路有的时候会比较单一,其实Python有很多灵活的解法,比如python的几个高阶函数或者特性! 推导式 列表推导...

2018-06-20 17:07:27 150 0

原创 Python爬虫基础学习,从一个小案例来学习xpath匹配方法

学习目的是为了实践,而实践又可以加深我们的学习效率,今天给大家带来了lxml库的xpath匹配方法的实例!教程大家网上搜索有很多,我们只看实用功能,当然,如果您已经很熟练了,可以跳过不看的! 开始前准备 版本:python3.6 工具:pycharm、lxml库(pip安装即可) ...

2018-06-19 14:06:28 377 0

原创 python爬虫零基础入门——反爬的简单说明

之前在《如何开始写你的第一个python脚本——简单爬虫入门!》中给大家分享了一下写一个爬虫脚本的基本步骤,今天继续分享给大家在初期遇到的一个很烦人的问题——反爬及处理办法! 我们的工具及库为:python3.6、pycharm、requests库 基本步骤:获取网页源代码——匹配需要的内容—...

2018-06-15 20:08:08 896 0

原创 如何开始写你的第一个python脚本——简单爬虫入门!

好多朋友在入门python的时候都是以爬虫入手,而网络爬虫是近几年比较流行的概念,特别是在大数据分析热门起来以后,学习网络爬虫的人越来越多,哦对,现在叫数据挖掘了! 其实,一般的爬虫具有2个功能:取数据和存数据!好像说了句废话。。。 而从这2个功能拓展,需要的知识就很多了:请求数据、反爬处...

2018-06-14 19:26:38 35269 0

原创 欢迎使用CSDN-markdown编辑器Python爬虫初接触,学会爬虫不抓美女图片干啥!

学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片 我们的目标选择唯一图库,url自己去找【人工呲牙笑】 这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类 上面分类没有这个分类,自己想办法进入哦。。...

2018-06-13 16:50:46 338 0

原创 为什么说python入门很简单,但是在你这很难?

许许多多的朋友在学习python的时候都会有这样的经历: 你辛辛苦苦,埋头苦学了好久基础知识,甚至书都被翻烂了,但是跟着别人的视频或者文章写一个代码,一运行,一堆一堆的error!于是你又要吭哧吭哧的重新排查 这个知识点我会,为啥会报错? 这个知识点我会,为啥写错了? 这里的结...

2018-06-12 17:05:17 7779 3

原创 世界杯快到了,看我用Python爬虫实现(伪)球迷速成!

还有4天就世界杯了,作为一个资深(伪)球迷,必须要实时关注世界杯相关新闻,了解各个球队动态,这样才能在一堆球迷中如(大)鱼(吹)得(特)水(吹),迎接大家仰慕的目光! 给大家分享一个快速了解相关信息的办法:刷论坛!我们来一起做个虎扑论坛的爬虫吧! 抓包获取虎扑论坛相关帖子内容,逐条显示...

2018-06-10 14:24:43 1048 6

原创 零基础学python之文本和编码问题

字符串是个相当简单的概念:一个字符串是一个字符序列。问题出在”字符”的定义上。 在2015 年,”字符”的最佳定义是Unicode字符。因此,从Python 3 的str对象中获取 的元素是Unicode字符 Unicode 标准把字符的标识和具体的字节表述进行了如下的明确区分。 字符...

2018-06-09 15:21:39 139 0

原创 关于一道面试题的极其无聊的python算法实现

题目是这样的: 某科技公司两位科学家(甲、乙)去吃饭,坐在一家酒店靠近街道的窗口座位吃饭,在等待上菜的过程中,闲极无聊,甲向乙出了一道猜三个女儿年龄的题目。 甲:我有3个女儿,3人年龄之积等于36; 乙:猜不出来; 甲:3个女儿年龄之和等于街道上的行人数; ...

2018-06-08 18:23:14 1324 0

原创 Python基础内容:怎样快速理解if __name__ == 'main'语句

name 是当前模块名,当模块被直接运行时模块名为 main 。这句话的意思就是,当模块被直接运行时,以下代码块将被运行,当模块是被导入时,代码块不被运行。 相信好多初学者在学习python的过程中,经常会遇到if name == ‘main’语句,可能你知道它的作用,也可能很模...

2018-06-07 08:55:30 122 0

原创 几个非常适合新手练习python爬虫的网页,总有一款能搞定!

几个非常适合新手练习python爬虫的网页,总有一款能搞定! 话不多说,直接干货了! 头条图集:抓包获取json数据 打开今日头条主页,搜索小姐姐,或者其他你感兴趣的内容,然后点击图集 动态加载的json数据就出来了,没有反爬,注意的是,如果不想去内容里面抓图片的话,可以只抓缩略图...

2018-06-06 15:42:05 7583 1

原创 非常适合新手的一个Python爬虫项目: 打造一个英文词汇量测试脚本!

最近朋友在苦学英文,但是又不知道自己学的怎么样了,直到有一天,他找到了扇贝网,里面有个“评估你的单词量”功能非常的好,就推荐给我了! 今天我们就用python做一个小的爬虫,然后自己写一个脚本来实现这个功能吧! 目标:打造一个英文词汇量测试脚本 url:扇贝网 工具:python3.6...

2018-06-05 13:58:57 1018 1

原创 代码遇到异常怎么办?不要慌,来看看这个!

先引入一个网上找的表格 异常名称 描述 BaseException 所有异常的基类 SystemExit 解释器请求退出 KeyboardInterrupt 用户中断执行(通常是输入^C) Exception 常规错误的基类 ...

2018-06-04 16:36:06 597 0

原创 简单应用Selenium+PhantomJS来抓取煎蛋网妹子图

那天有朋友找我一起抓妹子图片,像我这么正派的人,肯定是要抱着学习的目的……打开网页,哇!又…又要上火了。。。。 话不多说,先看看网页吧! 熟练的打开网页,找到妹子图,然后F12打开开发者工具,定位,ok,图片地址找到了,so easy~!,我们写入代码看看 WTF~! 返回...

2018-06-03 09:47:48 339 0

原创 Python基础之常用格式化输出字符详解

写代码的时候经常会遇到使用格式化字符的情况,这里将常用的三种情况:%s、%d和%f 用代码给大家详细说明下: %s 字符串 %d 整型数字 %f 浮点型 好了~格式化字符的输出就讲到这里了,如果对大家有帮助,点个赞在走呗! ...

2018-06-02 09:41:53 90 0

原创 Python基础之格式化输出函数format()功能详解

之前发过一篇文章:Python基础之常用格式化输出字符详解 但是呢,有时候我们需要用到多个%的时候,用这个就很不方便了,比如数错%数量或者一 一对应的时候。。。 这里补充一个字典方式的格式化输出字符的办法 print(“double abc is %(a)s%(b)s%(c)s”%{‘a...

2018-06-01 16:46:25 513 0

原创 新手学python,如何才能更快升职加薪,迎娶白富美,走上人生巅峰

最近在问答里发现好多咨询怎么学习python,或者学习难不难的问题,这里给大家提几点建议: 了解自己的目标 我开始学编程的时候,连基础的知识都不知道,小白的很!记得我开始看教材,就是输入“hello world”的时候,我也是一脸懵逼,啥是控制台啊,那一堆堆的英文字母是啥意思?打开cmd?...

2018-05-31 22:06:38 863 1

原创 自制一个python下载文件的进度条模块!

我们在做Python爬虫脚本的时候,往往希望在运行的过程中可以实时查看到我的下载进度!之前我也一直想实现这个功能(绝对不是为了炫(装)耀(B)),也查看了很多博客但是各种解决方案都不是很满意(当然,progressBar和tqdm这两个库都是可选择也可操作的),很多时候我们需要一些定制功能的时候就...

2018-05-30 16:47:02 5632 1

原创 Python爬虫框架scrapy抓取旅行家网所有游记!从此出游不发愁!

Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,并且非常方便。Scrapy 使用 Twisted 这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。以上是网上摘录的一段介绍scrapy框架的文字,大过年的,懒癌高发期...

2018-02-22 15:43:54 368 1

提示
确定要删除当前文章?
取消 删除