自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Blessy_Zhu的博客

本人的博客是平常学习的一个知识点记录和学习心得,希望可以和你多一些交流,共同进步

  • 博客(68)
  • 资源 (6)
  • 收藏
  • 关注

原创 解析库之Beautiful Soup(二)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述在文章解析库之Beautiful Soup(一)中已经详细介绍了Beautiful Soup库的相关内容,包括解析器、Beautiful So...

2019-02-22 15:42:49 3000 3

原创 解析库之Beautiful Soup(一)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述通过正则表达式的学习,可以是吸纳提取页面信息的功能,(相关内容为:Python小知识-正则表达式和Re库(一)和Python小知识-正则表达式...

2019-02-22 12:24:57 3777 3

原创 数据存储之文件存储(一)-TXT文件存储

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述数据存储是爬虫的一个很重要的部分,爬虫爬出来的数据要不存到文件中,要不就存到数据库中。基于这两个存储思想,保存形式可以动作多样,文件存储有:T...

2019-02-02 23:24:21 6075 4

原创 数据存储之文件存储(二)-JSON文件存储

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述本篇文章主要讲的是JSON文件存储,其中包括JSON库中两个重要函数:loads()-将JSON文本字符串转化为JSON对象;dumps()-...

2019-02-02 22:33:16 5226 6

原创 数据存储之文件存储(三)-CSV文件存储

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一 概述这篇文章主要讲解的是CSV文件存储,主要分为数据的写入,这里面又可以分为结构化数据-字典的写入,一维列表数据的写入、二位列表数据的写入,还会讲...

2019-01-30 14:51:54 8958 4

原创 Python爬虫之csv+PIL+BytesIO+re爬取猫眼电影排行(九)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言今天这篇文章写的内容是爬取猫眼电影TOP100的电影名称、时间、评分、图片等信息,首先看一下待爬取的网站内容,如图1所示: 图1通过...

2019-01-30 10:22:34 5855 4

原创 Python问题解决-Excel打开CSV格式内容时中文出现了乱码

1 问题描述在Python爬虫保存数据或者日常办公中需要下载csv文件,但是有时打开Excel文件后的中文字符是乱码,这时候该怎么办呢,本文将分享经验,如何解决Excel打开csv文件后中文乱码的问题。2 问题解决第1步首先 来看一下乱码时的内容,如图1所示:图1第2步接下来,先正常打开一份空白的excel文件,将鼠标定位在第一行第一列(这边鼠标定位的位置将决定后续打开的csv文...

2019-01-29 17:57:18 8644 5

原创 Python小知识-正则表达式和Re库(二)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm1 概述上一篇文章Python小知识-正则表达式和Re库(一)讲解了正则表达式的基本内容,包括介绍了一个正则表达式的测试工具、介绍了常用的匹配规...

2019-01-28 20:33:55 2162 3

原创 Python小知识-正则表达式和Re库(一)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm1 概述在爬虫过程中,有时会遇到正则表达式的问题,每次遇到时总会想各种方法去避免、逃避,今天又遇到类似的问题了,决心找个时间好好看一下这块内容,...

2019-01-28 13:43:57 2551 3

原创 如何理解yield的用法

原创不易,转载前请注明博主的链接地址:Blessy_Zhu(https://blog.csdn.net/weixin_42555080)本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm1 概述在学习Python爬虫的过程中,遇到了一个关键字-yield,刚开始并不能完全理解,查阅了许多博客,把这个内容说的很是复杂费解。后来仔细又理...

2019-01-26 22:57:27 4484 6

原创 python小知识-class类和object对象

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一.概述Java面向对象程序设计中,已经见识过面向对象程序设计的三个基本特性:封装性(Encapsulation)、继承性(Inheritance)、...

2019-01-17 20:34:01 1587 6

原创 Python小知识-模块之time、random、math、cmath模块

1.概述模块(module)能够有逻辑地组织Python代码段。把相关的代码分配到一个模状里面,从而 让代码更好用,更易懂。简单地说,模块就是-一个保存了Python代码的文件。模块里能定义函数、类和变量。 2.import导入模块在Python中模块和C语言中的头文件以及Java中的包很类似,比如在Python 中要调用random函数,必须用import关键字引人random这个模块...

2019-01-13 16:00:07 1666 4

原创 Python小知识-序列数据结构之集合set(四)

这篇文章讲的是Python的集合set类型set集合简介集合是一个无序的(类似无序的还有字典),不重复的数据集合。其基本功能包括下面两种:去重:把一个还有重复元素的列表或元组等数据类型转变成集合,其中的重复元素只出现一次。使用set()方法。进行关系测试:测试两组数据之间的交集,差集,并集等数据关系。1. 创建集合set——去重可以使用大括号{}或者set()函数创建集合。注意:创...

2019-01-10 14:39:35 1003 3

原创 Python小知识-序列数据结构之字典dict(三)

这篇文章讲的是Python的字典类型dict字典简介字典顾名思义,就是通过特定索引,找索引对应的值,Python字典(dict)是一种可变容器模型,且可存储任意类型对象,如:字符串、数字、元组等其他容器模型。字典也被称作关联数组或哈希表。1.创建字典字典由键和对应值(key----》value)成对组成。字典的每个键/值对里面键和值用‘:’分割,键/值对之间用‘,’分割,整个字典包括在花括...

2019-01-10 11:12:56 1227 8

原创 Python小知识-序列数据结构之元组tuple(二)

这篇文章讲的是Python的元组类型tuple内容简介Python的元组(tuple)与列表类似,不同之处在于元组的元素不能修改。元组使用小括号 () ,列表使用方括号 [ ]。元组中的元素类型也可以不相同 。1.创建元组元组创建:括号中添加元素,并使用逗号隔开即可。实例如下:tup1 = (1,2,3)tup2 = ('张三','李四','王五')注意当元组中只包含一个元素时...

2019-01-10 10:26:36 996 3

原创 Python小知识-序列数据结构之列表list(一)

1、前言序列顾名思义就是数据按照顺序排列,这个顺序实际上就是数据在内存中的顺序排列。序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字即它的位置或索引。序列都可以进行的操作有索引、截取(切片)、加、乘、成员检查。除此之外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法如list中的Max()方法等。Python 内置序列类型最常见的是列表、元组、字典和集合。...

2019-01-09 20:26:14 1220 5

原创 Python小知识-利用zip函数将两个列表(list)组成字典(dict)

利用zip函数将两个列表(list)组成字典(dict)keys = ['a', 'b', 'c']values = [1, 2, 3]dictionary = dict(zip(keys, values))print(dictionary)结果如图1   图1

2019-01-08 15:10:37 2072 2

原创 Python小知识-append与insert的列表操作

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 问题描述今天在看Magnus Lie Hetland写的《Python算法教程》时,偶然间看到了一个自己一直忽略的问题,即Python的list...

2019-01-05 19:35:05 3497 2

原创 Python爬虫之wordcloud+jieba爬取小说并生成词云(八)

原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言今天这篇文章写的内容是爬取《全书网》http://www.quanshuwang.com/book/9/9055 的《盗墓笔记小说》,然后用...

2019-01-03 21:46:56 6656 3

原创 Python小知识-sys.stdout.write和print进度条打印

打印进度条的方法用两种:一、sys.stdout.write方式这个方法中必须使用这句话每次来清理缓存。 sys.stdout.flush()import sysimport timei = 0for i in range(20): time.sleep(1) sys.stdout.write("\r# Process: %0.1f %%" % (float...

2019-01-03 17:01:27 2478 2

原创 Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文(七)

Python爬虫之BeautifulSoup+Requests爬取喜欢博主的全部博文原创不易,转载前请注明博主的链接地址:https://blog.csdn.net/weixin_42555080本次代码的环境:运行平台: WindowsPython版本: Python3.xIDE: PyCharm一、 前言当你比较喜欢一个博主的文章,而又想把它全部下载下来,这时候我们可以通过爬虫快...

2018-12-25 22:44:04 5696 5

原创 Python爬虫之urllib+Json+post向有道翻译发送数据获得翻译结果(六)

这篇文章要介绍的内容是,使用urllib和Json库,通过post向浏览器发送数据,从而实现利用Python就可以使用爬虫网站的特定功能:我们这篇的实例是向《有道翻译》中发送数据,并自动给出翻译。如下图1所示: 图1首先我们还是先给出代码:from urllib import request#注释1from urllib import parseimport jsondef get...

2018-12-24 17:11:25 2353 5

原创 Python爬虫基础之requests+BeautifulSoup+Image 爬取图片并存到本地(五)

刚学python不久,写了一个自己认为还比较简单易懂“爬取图片的方式,并保存本地指定路径下”。我爬取的内容是“Yestone邑石网”的部分图片链接如下,https://www.yestone.com/gallery/1501754333627爬取的页面如图1所示。  图1爬取的Python代码如下import requestsfrom bs4 import BeautifulSoup ...

2018-12-22 22:49:23 9106 3

原创 Python爬虫基础之requests+xpath解决动态加载问题(四)

今天爬取的是豆瓣励志分类电影,解决动态加载问题。链接在这里:https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97如图1所示它的主页面:  图1这次,需要在开发者模式,审查Network的JS或者是XHR,一般数据会在Network的 JS或者 XHR 类目里。首先我们在开发者模...

2018-12-21 22:44:25 6203 2

原创 Python爬虫基础之Requests和XPath实例(三)

如何用Python爬取多个页面的数据信息呢?这次通过豆瓣网top250的图书信息来进行学习。首先给出页面(如图1所示)的URL: https://book.douban.com/top250 ,我们要爬去的信息是:书名、链接、评分、一句话评价……  图11. 爬取单个信息首先要是爬取单个页面中单个书本的信息,这个内容上篇文章以及记录过了,代码如下:import requests#fro...

2018-12-21 20:08:28 9705 3

原创 Python爬虫基础之 Requests+Xpath 爬取豆瓣电影(二)

我们要爬取豆瓣电影《肖申克的救赎》(如图1所示)上面的一些信息,网站地址是:https://movie.douban.com/subject/1292052/  图1代码如下:import requests#from lxml import etreefrom lxml import htmletree = html.etreeurl = 'https://movie.doub...

2018-12-21 18:11:08 3724 5

转载 CSDN-markdown编辑器的使用

欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体...

2018-12-18 13:20:03 205

原创 Python问题解决-window下的PyCharm 的安装

PyCharm 的安装  PyCharm是由JetBrains打造一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。  1 PyCharm的下载  可以从官网http...

2018-12-05 10:14:17 2050 2

经典算法50题Java版.doc

面试算法入门之经典算法40题(Java版)

2021-01-10

LSTM详细学习.docx

LSTM学习相关内容。学习LSTM需要通过五大问题来全面的理解:为什么会出现LSTM?LSTM是怎么解决CNN梯度消失的问题的?LSTM的主要内容是什么?LSTM如何代码实现?LSTM现在发展到什么地步(即有哪些变体)?通过这五个问题,了解LSTM的前世今生。

2019-09-30

charfreq.csv

本资源适用于朴素贝叶斯分类器通过姓名判断是男还是女生

2019-06-04

KNN算法综述_闭小梅 .pdf

KNN(K最近邻)分类算法是应用最为广泛的分类算法。本文介绍传统的KNN方法的基础上,根据其不足,从降低计算复杂度提高算法的执行效率,相似度度量方法,决策规则等几方面综述KNN改进算法。

2019-05-30

K_means算法研究综述_丛思安.pdf

K-means 算法研究综述,K-means 的发展已经经历了很长的一段时 间,它所具有的独特优势使得其被广大研究者 不断地优化和使用。

2019-05-29

利用ZIPF定律建立有效的WEB对象缓存机制

通过对Web通信量的分析,人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中,为得到所期望的Web对象命中率的要求,设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此,Zipf定律为web缓存结构的设计提供了重要的依据。适当的缓存大小结合P-LFU替换策略可以得到很高的Web缓存命中率。

2019-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除