自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Python2 爬虫(九) -- Scrapy & BeautifulSoup之再爬CSDN博文

序我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文上一篇Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文,我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。那么,既然认识

2018-01-03 15:35:38 610

原创 Python3 爬虫(八) -- BeautifulSoup之再次爬取CSDN博文

序在Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文上一篇,我们学习了BeautifulSoup这样一个优秀的Python库,必须有效利用起来。那么我们就利用BeautifulSoup4重新实现一次爬取csdn博文的任务。由于我修改了博客配置,首

2018-01-03 15:32:58 551

原创 Python3 爬虫(七) -- 配置BeautifulSoup4+lxml+html5lib

序Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml 。另一个可供选择的解析器是纯Python

2018-01-03 15:29:00 3027

原创 Python2 爬虫(六) -- 初尝Scrapy框架

1、Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy官网文档 --

2018-01-03 15:27:52 958

原创 Python3 爬虫(五) -- 单线程爬取某人CSDN全部博文

序本文我实现的是一个CSDN博文爬虫,将某人csdn博客http://blog.csdn.net/fly_yr/article/list/1 中的全部博文基本信息抓取下来,每一页保存到一个文件中。先来看一下他的博客页面(与选择的主题有关系哦,不同主题网页样式与源码是不同的~):确定要提取的信息:发表日期是否原创标记博文标题博文

2018-01-03 15:23:47 493

原创 Python3 爬虫(四) -- 登录知乎

序有些网站需要用户登录,利用python实现知乎网站的模拟登录。用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。知乎登录首页第一、使用Fiddler观察“登录”浏览器行为打开工具Fiddler,在浏览器中访问https://www.zhihu.com,Fiddler 中就能看到捕捉到的所有连接信息。在左侧选择登录的那一条: 观察右侧

2018-01-03 15:18:52 824

原创 Python3 爬虫(三) -- 爬取豆瓣首页图片

序前面已经完成了简单网页以及伪装浏览器的学习。下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下。首先,豆瓣首页部分图片展示这只是截取的一部分。下面给出,整个爬虫程序。爬虫程序这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块。[python] view plain copy

2018-01-03 15:16:54 549

原创 Python3 爬虫(二) -- 伪装浏览器

一、伪装浏览器对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。具体实现:自定义网页请求报头。二、使用Fiddler查看请求和响应报头打开工具Fiddler,然后再浏览器访问“https://www.douban.com/”,在Fiddler左侧访问记录中,找到“200 HTTPS w

2018-01-03 15:14:06 601

原创 Python3 爬虫(一)-- 简单网页抓取

序一直想好好学习一下Python爬虫,之前断断续续的把Python基础学了一下,悲剧的是学的没有忘的快。只能再次拿出来滤了一遍,趁热打铁,借鉴众多大神的爬虫案例,加入Python网络爬虫的学习大军~~~ 爬虫之前 在着手写爬虫之前,要先把其需要的知识线路理清楚。第一:了解相关Http协议知识HTTP是Hyper Text Transfer

2018-01-03 15:02:32 980 2

原创 pycharm连接mysql数据库

新的环境配置pycharm的项目时,发现pycharm不能连接到mysql数据库。由于安了java环境但是还没配置相关的库,并且jetbrains家的IDE一般都是java写的,于是猜想可能是java缺少mysql的驱动。1.先确保python能正常连接到数据库可以如下图测试,如果无报错,说明正常连接到了数据库如果有报错,可能是缺少MySQLdb包先去下载MySQLdb

2017-12-20 17:29:21 5517 1

原创 PyCharm 如何安装python第三方库及插件(mongodb)

一、如何安装python第三方库:   1、有一个专门可下载安装第三方库的网址:   http://www.lfd.uci.edu/~gohlke/pythonlibs/           Ctrl+f  搜索要下载的第三方库,并下载         库文件都是以 whl 结尾,下载好后,把它重命名为zip  (把whl改为zip),出现一个选框选择“是”,接下来就可以解压了

2017-12-20 16:48:29 860

原创 Python之道1-环境搭建与pycharm的配置django安装及MySQL数据库配置

近期做那个python的开发,今天就来简单的写一下开发路线的安装及配置,开发路线 Python3.6.1+Pycharm5.0.6+Django1.11+MySQL5.7.181-安装Python3.6.1  Python2.x 与3.x的版本在语法上稍有不同,区别在于输出语句的不同,这个可以看相关的文档。  Python3.6.1,可以在Python的官网上下载:

2017-12-20 16:09:58 2309

原创 Linux 常用命令大全

1.ls [选项] [目录名 | 列出相关目录下的所有目录和文件1234567891011121314-a 列出包括.a开头的隐藏文件的所有文件-A 通-a,但不列出"."和".."-l 列出文件的详细信息-c 根据ct

2017-12-14 23:04:42 247

原创 如何远程操控另一台计算机

在对方电脑设置这些:《1》在 (window10叫 )用鼠标点击右键,然后点击找到点击到点击,选择允许远程连接到此计算机,最后点《2》在桌面右下角网络点击鼠标右键,打开网络和共享中心点击以太网点击查看IP地址并记住《3》在《2》打开网络和共享中心,点击 Windows防火墙然后点击 启用或关闭Windows防火墙

2017-12-10 16:20:39 4192

原创 如何在 Django 连接 MYSQL 数据库

本文是python3的版本《1》如何连接MySQL(1)添加应用程序my_meng是我的项目名    即 $ django-admin startproject my_mengblog是我的应用名  即 $ python manage.py startapp blog#在settings.pyINSTALLED_APPS = [    'dj

2017-12-09 17:53:13 211

原创 电脑快捷键一览表

一、常规键盘快捷键  按键 目的  Ctrl + C 复制。  Ctrl + X 剪切。  Ctrl + V 粘贴。  Ctrl + Z 撤消。  DELETE 删除。  Shift + Delete 永久删除所选项,而不将它放到“回收站”中。  拖动某一项时按 CTRL 复制所选项。  拖动某一项时按 CTRL + SHIFT 创建所选项目的快捷键。  F

2017-11-29 20:11:37 3051

原创 《CSS3实战》文本阴影:text-shadow

语法:none|length>|none|[shadow>,]*shadow>或none|color>|[,color>]*123取值简单说明:表示颜色;表示由浮点数字和单位标识符组成的长度值,可为负值,指定阴影的水平延伸距离;表示由浮点数字和单位标识符组成的长度值,不可为负值,指定模糊效果的作用距离。如果仅仅需要模糊效果,将前两个lengt

2017-11-27 16:45:44 762

原创 vscode: Visual Studio Code 常用快捷键

主命令框F1 或 Ctrl+Shift+P: 打开命令面板。在打开的输入框内,可以输入任何命令,例如:按一下 Backspace 会进入到 Ctrl+P 模式在 Ctrl+P 下输入 > 可以进入 Ctrl+Shift+P 模式在 Ctrl+P 窗口下还可以:直接输入文件名,跳转到文件? 列出当前可执行的动作! 显示 Errors或 Warnings,也可以 Ctrl+Sh

2017-11-25 15:39:59 213

原创 python3爬虫初级入门和正则表达式

用python抓取指定页面:代码如下:import urllib.requesturl= "http://www.baidu.com"data = urllib.request.urlopen(url).read()#data = data.decode('UTF-8')print(data)123456urllib.request.urlopen(url)官方文档返

2017-11-23 10:23:44 544

原创 python3 爬取网页表格例子

我是初学者,希望对跟我一样的 “小白”有帮助#网址如下:http://www.maigoo.com/news/463071.htmlfrom bs4 import BeautifulSoup  import requests  import csv  import bs4      #检查url地址  def check_link(url):      tr

2017-11-22 16:27:20 22838 7

原创 python 正则表达式

正则表达式(简称RE)本质上可以看作一个小的、高度专业化的编程语言,在Python中可以通过re模块使用它。使用正则表达式,你需要为想要匹配的字符串集合指定一套规则,字符串集合可以包含英文句子、e-mail地址、TeX命令或者其它任何你希望的字符串。然后您能提这样的问题:“这个字符串匹配这个模式吗?”,或者“在这个字符串中存在这个模式的匹配吗?”。你也能使用正则表达式修改一个字符串或者分离它。

2017-11-21 15:13:51 199

原创 翻译 PyMongo 文档

PyMongo官方文档翻译这是本人翻译的PyMongo官方文档。现在网上分(抄)享(袭)的PyMongo博客文章很多,一方面这些文章本就是抄袭的,谈不上什么格式美观,另一方面其实这些博客已经落后很久了,根本是不能作为参考的。遂自己翻译了一下。渣翻译请见谅,能看懂就行。本翻译文档包含以下内容:使用PyMongo插入数据使用PyMongo查询数据使用PyMong

2017-11-20 16:47:27 227

原创 python程序必知面试题

Python面试题汇总拿网络上关于Python的面试题汇总了,给出了自认为合理的答案,有些题目不错,可以从中学到点什么,答案如不妥,请指正......+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++【题目:001】| 说说你对zen of python的理解,你有什么办法看到它?

2017-11-17 19:13:50 782

原创 在 Python 应用中使用 MongoDB

在这篇文章中,将向您展示如何使用Python链接目前主流的MongoDB(V3.4.0)数据库,主要使用PyMongo(v3.4.0)和MongoEngine(V0.10.7)。同时比较SQL和NoSQL。1、SQL vs NoSQL如果你不是很熟悉NoSQL这个概念,MongoDB就是一个NoSQL数据库。近几年来它越来越受到整个行业的欢迎。NoSQL数据

2017-11-15 13:07:02 219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除