极客学院python跟学_hhyiyuanyu的博客-CSDN博客

极客学院python跟学

关注

文章平均质量分 53

关注数：文章数：20 文章阅读量：10516 文章收藏量：20

作者: hhyiyuanyu

这个作者很懒，什么都没留下…

展开

极客学院课程爬虫

#encoding=utf-8#目标网站http://www.jikexueyuan.com/course/# 目标内容：课程名称，课程介绍，课程时间，课程等级，学习人数# 涉及的知识：requests获取网页，re.sub翻页，正则表达式匹配内容。import requestsimport re#因为在Windows系统下，命令提示符默认的编码是GBK，而HTML中utf-8，编...

原创 2018-04-24 16:05:16 · 329 阅读 · 0 评论
cookies模拟登陆新浪微博

#encoding=utf-8import requestsfrom lxml import etreefrom multiprocessing.dummy import Poolcook={"Cookie":"xxxxxx"}# cook = {"Cookie":""}# url = 'https://weibo.cn/u/1890493665'url = 'xxx'html...

原创 2018-05-21 17:15:39 · 412 阅读 · 0 评论
创建mysql数据库

#名称：tbl_user，名称不超过64字符；尽量不使用关键字来命名；#如果全部由数字或者保留字组成，或者名字包含特殊字符，则使用单引号将名字括起来，尽量避免使用#类型，整数类型，字段逗号分隔，分号结尾#用户的名字，字符串类型#用户密码，字符串类型create table tbl_user(#字段id int(3),name varchar(8),pasword varchar(20));#重命名...

原创 2018-07-09 21:28:59 · 172 阅读 · 0 评论
mysql运算符

-- 算术运算符-- 比较运算符-- 逻辑运算符与位运算符-- 算术运算符+,-,*,/,%select -1.0+2;select 2 / 0 ;-- 除数为0的情况，返回nullselect '2' * 5;-- 运算中字符当成数字使用select '20aa' * 5;-- 数字在前，可以转化为数字select 'aa20' * 5;-- 数字在后，就转化为0select * from ta...

原创 2018-07-09 21:30:01 · 347 阅读 · 0 评论
mysql数据库——数值类型

-- 数值类型,字符(串)类型,日期时间类型-- 整数类型,浮点数类型;-- 整型-- TINYINT,SMALLINT,MRDIUMINT,INT,BIGINT;-- 一个字节(-128~127),两个字节，三个字节，四个字节，八个字节；-- 浮点型-- FLOAT,DOUBLE,decimal;-- 四个字节，八个字节；create table tabledata (tint tinyint,...

原创 2018-07-09 21:31:42 · 470 阅读 · 0 评论
mysql数据库——字符类型

-- 字符类型-- CHAR(定长字符串),VARCHAR（变长字符串）,-- TEXT(一个较大块文本数据，不区分大小写，非二进制的),-- BLOB（超过范围的就会被自动截断，区分大小写，二进制的）;可以添加TINY，LONG等修饰-- varbinary(二进制可变长度字符串)，-- enum(枚举,多个字符的选择，只能选择其中的一个),set(插入一个或多个)create table ta...

原创 2018-07-09 21:32:23 · 1152 阅读 · 0 评论
mysql数据库——时间类型

-- DATA(三个字节1000-1-01-01~9999-12-31),YYYY-MM-DD-- TIME,()HH:MM:SS-- YEAR,(1901-2155)YYYY-- DATETIME,(1000-1-01-01~9999-12-31)YYYY-MM-DD HH:MM:SS 还可以继续向下精确-- TIMRSTAMP(1970-01-01~2037-xx-xx)YYYY-MM-DD ...

原创 2018-07-09 21:33:06 · 231 阅读 · 0 评论
mysql数据库——插入数据

create table addressbook (fname varchar(255) null,-- first name,255设置最大长度255个字符 lname varchar(255) null,-- last name phone varchar(255) null, ...

原创 2018-07-09 21:33:54 · 198 阅读 · 0 评论
mysql数据库——更新（修改）、删除数据

-- 插入数值-- 给表设置初试值create table forums (name varchar(150) not null, category varchar(50) default 'UNIX' not null, -- default用来设置默认值 postsPerpage smallint def...

原创 2018-07-09 21:35:33 · 3372 阅读 · 0 评论
python盗墓笔记爬虫爬虫scrapy_redis——MongoDB存储

目标网站：盗墓笔记小说网站目标网址：http://www.daomubiji.com/目标内容：盗墓笔记小说的信息，具体内容包括：书标题章数章标题输出结果保存在MongoDB中####################################记得每次清空redis增加：每一章的正文settings中添加：...

原创 2018-05-11 16:09:39 · 642 阅读 · 0 评论
python的scrapy爬虫——豆瓣电影top250爬虫练习——保存到CVS文件

xxx\doubanmovie\doubanmovie\items# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://doc.scrapy.org/en/latest/topics/items.html# import scrap...

原创 2018-05-04 15:47:58 · 1560 阅读 · 0 评论
XPath与多线程爬虫

#encoding=utf-8 #在进行网页抓取的时候，分析定位html节点是获取抓取信息的关键，目前我用的是lxml模块(用来分析XML文档结构的，当然也能分析html结构)，利用其lxml.html的xpath对html进行分析，获取抓取信息;#神器XPath的介绍与配置 #首先要说的是XPath数据类型。XPath可分为四种数据类型： # 节点集（node-set...

原创 2018-04-24 16:07:32 · 143 阅读 · 0 评论
XPath特殊应用

#encoding=utf-8from lxml import etreehtml1 = '''<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title></title></hea

原创 2018-04-24 16:08:26 · 119 阅读 · 0 评论
python并行化

#encoding=utf-8from multiprocessing.dummy import Pool as ThreadPool#导入pool类，命名为ThreadPoolimport requestsimport timedef getsource(url): html = requests.get(url)urls = []for i in range(1,2...

原创 2018-04-24 16:09:23 · 340 阅读 · 0 评论
百度贴吧爬虫

#encoding=utf-8#目标网站：http://tieba.baidu.com/p/3522395718#跟帖用户名，跟帖内容，跟帖时间#涉及知识：Requests获取网页,xpath提取内容，map实现多线程爬虫from lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoolimport r...

原创 2018-04-24 16:09:56 · 127 阅读 · 0 评论
正则表达式举例

#encoding=utf-8import re# html里是文本里的内容f = open('text.txt','r')html = f.read()f.close# #爬取标题# # 需要寻找的<title>只出现一次，search()只返回第一个匹配的元素，不用遍历全部，效率更高# title = re.search('<title>(.*?)&...

原创 2018-04-24 16:12:33 · 114 阅读 · 0 评论
制作爬虫文本

#encoding=utf-8import reimport requests#读取源代码文件f = open('source.txt','r')html = f.read()f.close()#匹配图片网址pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S)i = 0for each in...

原创 2018-04-24 16:14:07 · 179 阅读 · 0 评论
正则表达式的使用举例re

#encoding=utf-8# 密码：hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse# 答案：I love you#正则表达式import resecret_code = 'hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'#.的使用举例# a = '...

原创 2018-04-24 16:18:28 · 257 阅读 · 0 评论
scrapy爬虫基础

生成文件夹在cmd中运行scrapy startproject doubantest（后跟文件夹名字）遇到的问题：跟视频中不一样，豆瓣电影top250加了反爬虫机制，解决办法是在settings.py中加入agent，方法参见百度经验：如何用pycharm编写scrapy项目：[8]user-agent：https://jingyan.baidu.com/article/e52e36151bdf2...

原创 2018-05-03 17:43:47 · 161 阅读 · 0 评论
数据库-举例（前面的基础知识中使用的数据库）

MariaDB [jikedb]> show tables;+------------------+| Tables_in_jikedb |+------------------+| addressbook || forums || leibusi || new || table_string || table...

原创 2018-07-09 21:45:41 · 198 阅读 · 0 评论

极客学院python跟学

作者: hhyiyuanyu

极客学院课程爬虫

cookies模拟登陆新浪微博

创建mysql数据库

mysql运算符

mysql数据库——数值类型

mysql数据库——字符类型

mysql数据库——时间类型

mysql数据库——插入数据

mysql数据库——更新（修改）、删除数据

python盗墓笔记爬虫爬虫scrapy_redis——MongoDB存储

python的scrapy爬虫——豆瓣电影top250爬虫练习——保存到CVS文件

XPath与多线程爬虫

XPath特殊应用

python并行化

百度贴吧爬虫

正则表达式举例

制作爬虫文本

正则表达式的使用举例re

scrapy爬虫基础

数据库-举例（前面的基础知识中使用的数据库）