- 博客(68)
- 资源 (6)
- 收藏
- 关注
原创 解析库之Beautiful Soup(二)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述在文章解析库之Beautiful Soup(一)中已经详细介绍了Beautiful Soup库的相关内容,包括解析器、Beautiful So...
2019-02-22 15:42:49 3000 3
原创 解析库之Beautiful Soup(一)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述通过正则表达式的学习,可以是吸纳提取页面信息的功能,(相关内容为:Python小知识-正则表达式和Re库(一)和Python小知识-正则表达式...
2019-02-22 12:24:57 3777 3
原创 数据存储之文件存储(一)-TXT文件存储
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述数据存储是爬虫的一个很重要的部分,爬虫爬出来的数据要不存到文件中,要不就存到数据库中。基于这两个存储思想,保存形式可以动作多样,文件存储有:T...
2019-02-02 23:24:21 6075 4
原创 数据存储之文件存储(二)-JSON文件存储
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述本篇文章主要讲的是JSON文件存储,其中包括JSON库中两个重要函数:loads()-将JSON文本字符串转化为JSON对象;dumps()-...
2019-02-02 22:33:16 5226 6
原创 数据存储之文件存储(三)-CSV文件存储
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述这篇文章主要讲解的是CSV文件存储,主要分为数据的写入,这里面又可以分为结构化数据-字典的写入,一维列表数据的写入、二位列表数据的写入,还会讲...
2019-01-30 14:51:54 8958 4
原创 Python爬虫之csv+PIL+BytesIO+re爬取猫眼电影排行(九)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言今天这篇文章写的内容是爬取猫眼电影TOP100的电影名称、时间、评分、图片等信息,首先看一下待爬取的网站内容,如图1所示: 图1通过...
2019-01-30 10:22:34 5855 4
原创 Python问题解决-Excel打开CSV格式内容时中文出现了乱码
1 问题描述在Python爬虫保存数据或者日常办公中需要下载csv文件,但是有时打开Excel文件后的中文字符是乱码,这时候该怎么办呢,本文将分享经验,如何解决Excel打开csv文件后中文乱码的问题。2 问题解决第1步首先 来看一下乱码时的内容,如图1所示:图1第2步接下来,先正常打开一份空白的excel文件,将鼠标定位在第一行第一列(这边鼠标定位的位置将决定后续打开的csv文...
2019-01-29 17:57:18 8644 5
原创 Python小知识-正则表达式和Re库(二)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm1 概述上一篇文章Python小知识-正则表达式和Re库(一)讲解了正则表达式的基本内容,包括介绍了一个正则表达式的测试工具、介绍了常用的匹配规...
2019-01-28 20:33:55 2162 3
原创 Python小知识-正则表达式和Re库(一)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm1 概述在爬虫过程中,有时会遇到正则表达式的问题,每次遇到时总会想各种方法去避免、逃避,今天又遇到类似的问题了,决心找个时间好好看一下这块内容,...
2019-01-28 13:43:57 2551 3
原创 如何理解yield的用法
原创不易,转载前请注明博主的链接地址:Blessy_Zhu(https://blog.csdn.net/weixin_42555080)本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm1 概述在学习Python爬虫的过程中,遇到了一个关键字-yield,刚开始并不能完全理解,查阅了许多博客,把这个内容说的很是复杂费解。后来仔细又理...
2019-01-26 22:57:27 4484 6
原创 python小知识-class类和object对象
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一.概述Java面向对象程序设计中,已经见识过面向对象程序设计的三个基本特性:封装性(Encapsulation)、继承性(Inheritance)、...
2019-01-17 20:34:01 1587 6
原创 Python小知识-模块之time、random、math、cmath模块
1.概述模块(module)能够有逻辑地组织Python代码段。把相关的代码分配到一个模状里面,从而 让代码更好用,更易懂。简单地说,模块就是-一个保存了Python代码的文件。模块里能定义函数、类和变量。 2.import导入模块在Python中模块和C语言中的头文件以及Java中的包很类似,比如在Python 中要调用random函数,必须用import关键字引人random这个模块...
2019-01-13 16:00:07 1666 4
原创 Python小知识-序列数据结构之集合set(四)
这篇文章讲的是Python的集合set类型set集合简介集合是一个无序的(类似无序的还有字典),不重复的数据集合。其基本功能包括下面两种:去重:把一个还有重复元素的列表或元组等数据类型转变成集合,其中的重复元素只出现一次。使用set()方法。进行关系测试:测试两组数据之间的交集,差集,并集等数据关系。1. 创建集合set——去重可以使用大括号{}或者set()函数创建集合。注意:创...
2019-01-10 14:39:35 1003 3
原创 Python小知识-序列数据结构之字典dict(三)
这篇文章讲的是Python的字典类型dict字典简介字典顾名思义,就是通过特定索引,找索引对应的值,Python字典(dict)是一种可变容器模型,且可存储任意类型对象,如:字符串、数字、元组等其他容器模型。字典也被称作关联数组或哈希表。1.创建字典字典由键和对应值(key----》value)成对组成。字典的每个键/值对里面键和值用‘:’分割,键/值对之间用‘,’分割,整个字典包括在花括...
2019-01-10 11:12:56 1227 8
原创 Python小知识-序列数据结构之元组tuple(二)
这篇文章讲的是Python的元组类型tuple内容简介Python的元组(tuple)与列表类似,不同之处在于元组的元素不能修改。元组使用小括号 () ,列表使用方括号 [ ]。元组中的元素类型也可以不相同 。1.创建元组元组创建:括号中添加元素,并使用逗号隔开即可。实例如下:tup1 = (1,2,3)tup2 = ('张三','李四','王五')注意当元组中只包含一个元素时...
2019-01-10 10:26:36 996 3
原创 Python小知识-序列数据结构之列表list(一)
1、前言序列顾名思义就是数据按照顺序排列,这个顺序实际上就是数据在内存中的顺序排列。序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字即它的位置或索引。序列都可以进行的操作有索引、截取(切片)、加、乘、成员检查。除此之外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法如list中的Max()方法等。Python 内置序列类型最常见的是列表、元组、字典和集合。...
2019-01-09 20:26:14 1220 5
原创 Python小知识-利用zip函数将两个列表(list)组成字典(dict)
利用zip函数将两个列表(list)组成字典(dict)keys = ['a', 'b', 'c']values = [1, 2, 3]dictionary = dict(zip(keys, values))print(dictionary)结果如图1 图1
2019-01-08 15:10:37 2072 2
原创 Python小知识-append与insert的列表操作
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 问题描述今天在看Magnus Lie Hetland写的《Python算法教程》时,偶然间看到了一个自己一直忽略的问题,即Python的list...
2019-01-05 19:35:05 3497 2
原创 Python爬虫之wordcloud+jieba爬取小说并生成词云(八)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言今天这篇文章写的内容是爬取《全书网》http://www.quanshuwang.com/book/9/9055 的《盗墓笔记小说》,然后用...
2019-01-03 21:46:56 6656 3
原创 Python小知识-sys.stdout.write和print进度条打印
打印进度条的方法用两种:一、sys.stdout.write方式这个方法中必须使用这句话每次来清理缓存。 sys.stdout.flush()import sysimport timei = 0for i in range(20): time.sleep(1) sys.stdout.write("\r# Process: %0.1f %%" % (float...
2019-01-03 17:01:27 2478 2
原创 Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文(七)
Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文原创不易,转载前请注明博主的链接地址:https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言当你比较喜欢一个博主的文章,而又想把它全部下载下来,这时候我们可以通过爬虫快...
2018-12-25 22:44:04 5696 5
原创 Python爬虫之urllib+Json+post向有道翻译发送数据获得翻译结果(六)
这篇文章要介绍的内容是,使用urllib和Json库,通过post向浏览器发送数据,从而实现利用Python就可以使用爬虫网站的特定功能:我们这篇的实例是向《有道翻译》中发送数据,并自动给出翻译。如下图1所示: 图1首先我们还是先给出代码:from urllib import request#注释1from urllib import parseimport jsondef get...
2018-12-24 17:11:25 2353 5
原创 Python爬虫基础之requests+BeautifulSoup+Image 爬取图片并存到本地(五)
刚学python不久,写了一个自己认为还比较简单易懂“爬取图片的方式,并保存本地指定路径下”。我爬取的内容是“Yestone邑石网”的部分图片链接如下,https://www.yestone.com/gallery/1501754333627爬取的页面如图1所示。 图1爬取的Python代码如下import requestsfrom bs4 import BeautifulSoup ...
2018-12-22 22:49:23 9106 3
原创 Python爬虫基础之requests+xpath解决动态加载问题(四)
今天爬取的是豆瓣励志分类电影,解决动态加载问题。链接在这里:https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97如图1所示它的主页面: 图1这次,需要在开发者模式,审查Network的JS或者是XHR,一般数据会在Network的 JS或者 XHR 类目里。首先我们在开发者模...
2018-12-21 22:44:25 6203 2
原创 Python爬虫基础之Requests和XPath实例(三)
如何用Python爬取多个页面的数据信息呢?这次通过豆瓣网top250的图书信息来进行学习。首先给出页面(如图1所示)的URL: https://book.douban.com/top250 ,我们要爬去的信息是:书名、链接、评分、一句话评价…… 图11. 爬取单个信息首先要是爬取单个页面中单个书本的信息,这个内容上篇文章以及记录过了,代码如下:import requests#fro...
2018-12-21 20:08:28 9705 3
原创 Python爬虫基础之 Requests+Xpath 爬取豆瓣电影(二)
我们要爬取豆瓣电影《肖申克的救赎》(如图1所示)上面的一些信息,网站地址是:https://movie.douban.com/subject/1292052/ 图1代码如下:import requests#from lxml import etreefrom lxml import htmletree = html.etreeurl = 'https://movie.doub...
2018-12-21 18:11:08 3724 5
转载 CSDN-markdown编辑器的使用
欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体...
2018-12-18 13:20:03 205
原创 Python问题解决-window下的PyCharm 的安装
PyCharm 的安装 PyCharm是由JetBrains打造一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。 1 PyCharm的下载 可以从官网http...
2018-12-05 10:14:17 2050 2
LSTM详细学习.docx
2019-09-30
KNN算法综述_闭小梅 .pdf
2019-05-30
K_means算法研究综述_丛思安.pdf
2019-05-29
利用ZIPF定律建立有效的WEB对象缓存机制
2019-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人