快乐糖果屋-CSDN博客

原创 Python2 爬虫（九） -- Scrapy & BeautifulSoup之再爬CSDN博文

序我的Python3爬虫（五）博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接：Python3 爬虫（五） -- 单线程爬取我的CSDN全部博文上一篇Python3 爬虫（八） -- BeautifulSoup之再次爬取CSDN博文，我们就利用BeautifulSoup4重新实现了一次爬取csdn博文的任务。那么，既然认识

2018-01-03 15:35:38 610

原创 Python3 爬虫（八） -- BeautifulSoup之再次爬取CSDN博文

序在Python3爬虫（五）博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。链接：Python3 爬虫（五） -- 单线程爬取我的CSDN全部博文上一篇，我们学习了BeautifulSoup这样一个优秀的Python库，必须有效利用起来。那么我们就利用BeautifulSoup4重新实现一次爬取csdn博文的任务。由于我修改了博客配置，首

2018-01-03 15:32:58 551

原创 Python3 爬虫（七） -- 配置BeautifulSoup4+lxml+html5lib

序Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml 。另一个可供选择的解析器是纯Python

2018-01-03 15:29:00 3027

原创 Python2 爬虫（六） -- 初尝Scrapy框架

1、Scrapy简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy官网文档 --

2018-01-03 15:27:52 958

原创 Python3 爬虫（五） -- 单线程爬取某人CSDN全部博文

序本文我实现的是一个CSDN博文爬虫，将某人csdn博客http://blog.csdn.net/fly_yr/article/list/1 中的全部博文基本信息抓取下来，每一页保存到一个文件中。先来看一下他的博客页面（与选择的主题有关系哦，不同主题网页样式与源码是不同的~）：确定要提取的信息：发表日期是否原创标记博文标题博文

2018-01-03 15:23:47 493

原创 Python3 爬虫（四） -- 登录知乎

序有些网站需要用户登录，利用python实现知乎网站的模拟登录。用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。知乎登录首页第一、使用Fiddler观察“登录”浏览器行为打开工具Fiddler，在浏览器中访问https://www.zhihu.com，Fiddler 中就能看到捕捉到的所有连接信息。在左侧选择登录的那一条：观察右侧

2018-01-03 15:18:52 824

原创 Python3 爬虫（三） -- 爬取豆瓣首页图片

序前面已经完成了简单网页以及伪装浏览器的学习。下面，实现对豆瓣首页所有图片爬取程序，把图片保存到本地一个路径下。首先，豆瓣首页部分图片展示这只是截取的一部分。下面给出，整个爬虫程序。爬虫程序这个爬取图片的程序采用伪装浏览器的方式，只不过是加了处理图片的模块。[python] view plain copy

2018-01-03 15:16:54 549

原创 Python3 爬虫（二） -- 伪装浏览器

一、伪装浏览器对于一些需要登录的网站，如果不是从浏览器发出的请求，则得不到响应。所以，我们需要将爬虫程序发出的请求伪装成浏览器正规军。具体实现：自定义网页请求报头。二、使用Fiddler查看请求和响应报头打开工具Fiddler，然后再浏览器访问“https://www.douban.com/”，在Fiddler左侧访问记录中，找到“200 HTTPS w

2018-01-03 15:14:06 601

原创 Python3 爬虫（一）-- 简单网页抓取

序一直想好好学习一下Python爬虫，之前断断续续的把Python基础学了一下，悲剧的是学的没有忘的快。只能再次拿出来滤了一遍，趁热打铁，借鉴众多大神的爬虫案例，加入Python网络爬虫的学习大军~~~ 爬虫之前在着手写爬虫之前，要先把其需要的知识线路理清楚。第一：了解相关Http协议知识HTTP是Hyper Text Transfer

2018-01-03 15:02:32 980 2

原创 pycharm连接mysql数据库

新的环境配置pycharm的项目时，发现pycharm不能连接到mysql数据库。由于安了java环境但是还没配置相关的库，并且jetbrains家的IDE一般都是java写的，于是猜想可能是java缺少mysql的驱动。1.先确保python能正常连接到数据库可以如下图测试，如果无报错，说明正常连接到了数据库如果有报错，可能是缺少MySQLdb包先去下载MySQLdb

2017-12-20 17:29:21 5517 1

原创 PyCharm 如何安装python第三方库及插件（mongodb）

一、如何安装python第三方库： 1、有一个专门可下载安装第三方库的网址： http://www.lfd.uci.edu/~gohlke/pythonlibs/ Ctrl+f 搜索要下载的第三方库，并下载库文件都是以 whl 结尾，下载好后，把它重命名为zip (把whl改为zip)，出现一个选框选择“是”，接下来就可以解压了

2017-12-20 16:48:29 860

原创 Python之道1-环境搭建与pycharm的配置django安装及MySQL数据库配置

近期做那个python的开发，今天就来简单的写一下开发路线的安装及配置，开发路线 Python3.6.1+Pycharm5.0.6+Django1.11+MySQL5.7.181-安装Python3.6.1　　Python2.x 与3.x的版本在语法上稍有不同，区别在于输出语句的不同，这个可以看相关的文档。　　Python3.6.1，可以在Python的官网上下载：

2017-12-20 16:09:58 2309

原创 Linux 常用命令大全

1.ls [选项] [目录名 | 列出相关目录下的所有目录和文件1234567891011121314-a 列出包括.a开头的隐藏文件的所有文件-A 通-a，但不列出"."和".."-l 列出文件的详细信息-c 根据ct

2017-12-14 23:04:42 247

原创如何远程操控另一台计算机

在对方电脑设置这些：《1》在（window10叫）用鼠标点击右键，然后点击找到点击到点击，选择允许远程连接到此计算机，最后点《2》在桌面右下角网络点击鼠标右键，打开网络和共享中心点击以太网点击查看IP地址并记住《3》在《2》打开网络和共享中心，点击 Windows防火墙然后点击启用或关闭Windows防火墙

2017-12-10 16:20:39 4192

原创如何在 Django 连接 MYSQL 数据库

本文是python3的版本《1》如何连接MySQL(1)添加应用程序my_meng是我的项目名即 $ django-admin startproject my_mengblog是我的应用名即 $ python manage.py startapp blog#在settings.pyINSTALLED_APPS = [ 'dj

2017-12-09 17:53:13 211

原创电脑快捷键一览表

一、常规键盘快捷键按键目的 Ctrl + C 复制。 Ctrl + X 剪切。 Ctrl + V 粘贴。 Ctrl + Z 撤消。 DELETE 删除。 Shift + Delete 永久删除所选项，而不将它放到“回收站”中。拖动某一项时按 CTRL 复制所选项。拖动某一项时按 CTRL + SHIFT 创建所选项目的快捷键。 F

2017-11-29 20:11:37 3051

原创《CSS3实战》文本阴影：text-shadow

2017-11-27 16:45:44 762

原创 vscode: Visual Studio Code 常用快捷键

主命令框F1 或 Ctrl+Shift+P: 打开命令面板。在打开的输入框内，可以输入任何命令，例如：按一下 Backspace 会进入到 Ctrl+P 模式在 Ctrl+P 下输入 > 可以进入 Ctrl+Shift+P 模式在 Ctrl+P 窗口下还可以:直接输入文件名，跳转到文件? 列出当前可执行的动作! 显示 Errors或 Warnings，也可以 Ctrl+Sh

2017-11-25 15:39:59 213

原创 python3爬虫初级入门和正则表达式

用python抓取指定页面：代码如下：import urllib.requesturl= "http://www.baidu.com"data = urllib.request.urlopen(url).read()#data = data.decode('UTF-8')print(data)123456urllib.request.urlopen(url)官方文档返

2017-11-23 10:23:44 544

原创 python3 爬取网页表格例子

我是初学者，希望对跟我一样的 “小白”有帮助#网址如下：http://www.maigoo.com/news/463071.htmlfrom bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): tr

2017-11-22 16:27:20 22838 7

原创 python 正则表达式

正则表达式（简称RE）本质上可以看作一个小的、高度专业化的编程语言，在Python中可以通过re模块使用它。使用正则表达式，你需要为想要匹配的字符串集合指定一套规则，字符串集合可以包含英文句子、e-mail地址、TeX命令或者其它任何你希望的字符串。然后您能提这样的问题：“这个字符串匹配这个模式吗？”，或者“在这个字符串中存在这个模式的匹配吗？”。你也能使用正则表达式修改一个字符串或者分离它。

2017-11-21 15:13:51 199

原创翻译 PyMongo 文档

PyMongo官方文档翻译这是本人翻译的PyMongo官方文档。现在网上分（抄）享（袭）的PyMongo博客文章很多，一方面这些文章本就是抄袭的，谈不上什么格式美观，另一方面其实这些博客已经落后很久了，根本是不能作为参考的。遂自己翻译了一下。渣翻译请见谅，能看懂就行。本翻译文档包含以下内容：使用PyMongo插入数据使用PyMongo查询数据使用PyMong

2017-11-20 16:47:27 227

原创 python程序必知面试题

Python面试题汇总拿网络上关于Python的面试题汇总了，给出了自认为合理的答案，有些题目不错，可以从中学到点什么，答案如不妥，请指正......+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++【题目:001】| 说说你对zen of python的理解，你有什么办法看到它?

2017-11-17 19:13:50 782

原创在 Python 应用中使用 MongoDB

在这篇文章中，将向您展示如何使用Python链接目前主流的MongoDB(V3.4.0)数据库，主要使用PyMongo(v3.4.0)和MongoEngine(V0.10.7)。同时比较SQL和NoSQL。1、SQL vs NoSQL如果你不是很熟悉NoSQL这个概念，MongoDB就是一个NoSQL数据库。近几年来它越来越受到整个行业的欢迎。NoSQL数据

2017-11-15 13:07:02 219

weixin_41059146的博客