2019年12月_D_dalei

原创 python爬虫，代理池proxypool文件夹内容设置

api.pyfrom flask import Flask,gfrom proxypool.db import Reids_Client__all__=['app']app = Flask(__name__)def get_conn(): if not hasattr(g,'reids_client'): g.redis_client = Reids_Clie...

2019-12-30 18:58:02 584

原创 python爬虫 --爬取链家项目【高级版】

爬取链家项目需要用到代理池，代理池具体怎么设置可以去翻我之前的文章import hashlibimport requestsfrom lxml import etreeimport pymongoimport time,reimport threadingfrom queue import Queueclass Lianjia(threading.Thread): de...

2019-12-26 19:27:50 445

原创 python爬虫 --爬取链家项目【中级版】

爬取链家项目需要用到代理池，代理池具体怎么设置可以去翻我之前的文章import hashlibimport requestsfrom lxml import etreeimport pymongoimport time,reclass Lianjia(object): def __init__(self,url): self.url = url ...

2019-12-26 19:26:46 267

原创 python爬虫 --爬取链家项目【初级版】

爬取链家项目需要用到代理池，代理池具体怎么设置可以去翻我之前的文章import hashlibimport requestsfrom lxml import etreeimport pymongoimport time,redef get_proxies(): try: response = requests.get('http://localhost:500...

2019-12-26 19:25:25 645 1

原创 python爬虫数据库---MongDB---索引---hash--存储数据---迭代器---交集并集--数据结构--组合索引

btree索引和hash索引hash讲解mongodb存储数据的过程noql数据库的应用redis数据结构迭代器交集并集和补集数据结构组合索引

2019-12-26 19:03:28 219

原创 python知识图谱--xml---并发和并行--死锁---递归---数组--同步和异步请求---线程

xml的名称并发和并行产生死锁的条件代理服务器递归生产者和消费者数组同步请求和异步请求网易云思路线程的五种状态

2019-12-26 18:58:53 224

原创 python爬虫 ---Hash算法

Hash算法1.定义Hash ：散列，通过关于键值(key)的函数，将数据映射到内存存储中一个位置来访问。这个过程叫做Hash，这个映射函数称做散列函数，存放记录的数组称做散列表(Hash Table),又叫哈希表。简单地说，它是密码学中的一个重要的函数，一般以表示。这个函数可以将任意一段数据（一般称这段数据为“消息”）压缩成固定长度的字符串（一般称输出的字符串为“摘要”）。哈希函数需要...

2019-12-25 17:09:47 960

原创 python爬虫 --多线程爬取笔趣网小说【晋级版】

import requestsfrom lxml import etreeimport osfrom queue import Queueimport threadingclass Biquge(threading.Thread): def __init__(self,url=None,name=None,q_novels=None): super().__ini...

2019-12-25 11:17:50 725

原创 python爬虫 --单线程爬取笔趣网的小说【基础版】

import requestsfrom lxml import etreeimport osdef get_proxies(): try: response = requests.get('http://localhost:5000/get') proxy = response.text proxies = { ...

2019-12-25 11:16:40 324

原创 python爬虫数据库 --关于Mongodb数据库语法

Mongodb数据库一、MongoDB简介二、MongoDB基础增删改查操作1、增：insert方法2、删除：remove3、更新：update4、查: find5、查询表达式:三、游标操作四、索引创建1、btree索引2、hash索引3、常用命令：五、MongoDB数据的导入导出1、通用选项：2、mongoexport 导出json格式的文件3、Mongoimpo...

2019-12-25 11:13:07 567

原创 python爬虫 --数据库 MongoDB的配置

一、mongo的配置1、新建文件夹：C:\MongoDB\Server\3.4\data\dbC:\MongoDB\Server\3.4\data\logs2、配置环境变量：C:\MongoDB\Server\3.4\bin配置到path系统环境变量中。3、测试是否配置成功mongod --dbpath C:\MongoDB\Server\3.4\data\db4、配置服务：mo...

2019-12-24 18:53:02 223

原创 python爬虫 --多线程【晋级版】--阻塞--队列--公共缓冲区

阻塞import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common...

2019-12-24 15:01:58 306

原创 python爬虫---多线程爬取腾讯招聘数据【晋级版】

多线程快速爬取import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.c...

2019-12-24 11:30:08 252

原创 python爬虫---多线程爬取腾讯招聘信息【简单版】

多线程快速爬取腾讯招聘数据import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdr...

2019-12-24 11:09:48 516

原创 python爬虫----单线程爬取腾讯招聘内容【简单版】

慢速单线程爬取腾讯招聘内容import timefrom selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdri...

2019-12-24 11:07:11 266

原创 python爬虫（6）爬虫晋级知识--多进程和多线程

一、selenium的三种等待1、强制等待：不管页面是否被加载出来，强制让进程等待。time.sleep(2)2、隐式等待：driver.implicitly_wait(20)设置20秒的最大等待时长，他等待的结束条件是：等待到浏览器全部加载完成为止，全部加载可以理解为，浏览器不再转圈圈。弊端：页面的加载其实不单单是页面html，重要还有一些页面静态资源，而静态资源的加载是最耗时的，这些...

2019-12-23 18:51:13 331

原创 python爬虫--IP代理池

关于ip代理池成图进来的小伙伴基本已经知道ip代理池的作用废话不多说上代码文件目录。照着这个目录做文件就行api.pyfrom flask import Flask,gfrom proxypool.db import Redis_Client#当import * *其实就是指__all__里面的内容才会被导入。__all__ = ['app']app = Flask(__n...

2019-12-23 11:07:13 343

原创 python爬虫--爬取豆瓣读书----内容数据

import time,osfrom lxml import etreefrom excel_wirte_utils.wirte_to_excel import write_to_excel,write_to_excel_appendimport xlrdfrom xlutils.copy import copyimport requestsimport xlwtfrom selen...

2019-12-22 15:49:19 799

原创 python爬虫（5）爬虫进阶知识-反爬

1、path环境变量的作用：为了让cmd找到各种命令exe工具，配path就找exe所在目录配置就可以了。C:\Anaconda3\Scripts—找pip.exeC:\Anaconda3----python.exe2.修改完path，要重启cmdwhere python pathpip install redispip install aiohttppip install a...

2019-12-22 14:50:32 456

原创 python爬虫工具---selenium一个web自动化测试工具

1、什么是selenium？selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。2、phantomjs：他其实就是一个内置无界面浏览器引擎。–无界面可以提高程序运行速度。因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。 3.安装selenium和phanto...

2019-12-21 15:28:41 518

原创 python爬虫 --爬取药网的药品信息-写入excel表中

import requestsfrom lxml import etreedef get_text(text): if text: return text[0] return ''def parse_page(html_str): tree = etree.HTML(html_str) li_list = tree.xpath('//ul[@...

2019-12-21 10:44:28 2738

原创 python爬虫 ---爬取网易云歌手信息

import requestsfrom lxml import etreedef get_text(list_): if list_: return list_[0] return ''def get_xpath(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; ...

2019-12-21 10:42:03 952

原创 python爬虫（4）爬虫进阶知识

第四讲 xpath一、什么xml？1、定义：可扩展标记性语言2、特点：xml的是具有自描述结构的半结构化数据。3、作用：xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。二、xml和html的区别？1、语法要求不同：xml的语法要求更严格。（1）html不区分大小写的，xml区分。（2）html有时可以省却尾标签。xml不能省略任何标签，严格按照嵌套首位结构。（3）只有x...

2019-12-20 15:55:02 237

原创 python基础 --使用正则来处理各种匹配问题

import re##匹配列表内的非负整数list = [99,100,-100,-1,90]pattern = re.compile(r'[1-9]\d*|0')for i in list: m = pattern.search(str(i)) print(m)##匹配列表内的整数list = [99,100,-100,-1,90]pattern ...

2019-12-20 08:51:50 330

原创 python爬虫--爬取股吧前十页【阅读】【评论】【标题】【作者】【更新时间】

这是一个爬取股吧前十页数据的爬虫import re, jsonimport requestsdef write_to_json(infos): with open('movies.json', 'w', encoding='utf-8') as fp: json.dump(infos, fp)# 解析页面内容def parse_page(html_str)...

2019-12-19 22:09:27 2500

原创 python基础项目--爬取猫眼TOP榜前一百条数据

主要步骤有：访问网站，获取页面源码解析页面，得到想要的数据循环爬取多个页面把数据写入本地文件分析需要爬取的页面结构访问猫眼电影。观察页面，会看到首页上有排名前十的电影信息。找到页面中的分页，点击不同的页码。对比不同页面url的差别，会发现不同的分页是以offset参数作为区分的。因为每个页面都显示10条电影信息，所以offset是以10作为偏移量的。标题抓取首页import r...

2019-12-19 19:39:03 477

原创 python爬虫基础（3）爬虫进阶知识

一、cookie和session1、什么是cookie？cookie是指网站为了鉴别用户身份，进行绘画跟踪而存储在客户端本地的数据。2、什么是session？本来的含义是指有始有终的一系列动作，而在web中，session对象用来在服务器存储特定用户会话所需要的属性及信息。3、cookie和session产生的原因cookie和session他们不属于http协议范围，由于http协...

2019-12-19 19:02:04 259

原创 python爬虫基础--爬取人人网的登录方式

******换成自己的账号密码大体结构不会变，但是后续代码需要根据自己账号变动import requestsbase_url = 'http://www.renren.com/PLogin.do'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML...

2019-12-19 10:30:27 375

原创 python爬虫（2）爬虫基础知识 -request模块

第二讲requests模块文档：从 pythoneer 到 pythonista 的100个模块【想了解可以点击下面链接去看】链接：http://note.youdao.com/noteshare?id=2b95bb3651c21af80ca1936f8ecb1e0f&sub=635CA99241664308947C4F3BC1B5DDBF1、使用步骤#1.导包import r...

2019-12-18 20:43:21 387

原创 python基础项目 --爬取金山词霸翻译功能

基础项目爬取金山词霸的翻译功能，import requestsimport jsonbase_url = 'http://fy.iciba.com/ajax.php?a=fy'headers = { 'Content-Length': '23', 'Content-Type': 'application/x-www-form-urlencoded; charset=UT...

2019-12-18 20:23:03 1144

原创 python爬虫基础 --爬取股吧前十页数据

新建文件夹 ./guba/ 爬取的十页数据会自动存到guba文件夹下import requestsimport osbase_url = 'http://guba.eastmoney.com/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM...

2019-12-18 19:44:26 2341

原创 python爬虫基础 --爬取有道翻译

言止于此，自我领悟import hashlibimport jsonimport randomimport timeimport requestsbase_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'headers = { # 'Accept': 'app...

2019-12-18 16:43:17 382

原创 python爬虫基础项目 --爬取百度翻译

在pycharm里面创建一个文件 baidu_fanyi.pyimport requests,jsonbase_url = 'https://fanyi.baidu.com/sug'headers= { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge...

2019-12-18 15:12:16 444

原创 python爬虫基础项目 --爬取百度中python人工智能的数据

创建一个py文件名为 baidu_search.py一个html文件 baidu_python人工智能.htmlimport requestsbase_url ='https://www.baidu.com/s?'kw = 'python人工智能'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x...

2019-12-18 14:41:01 445

原创 python爬虫基础项目 -- 爬取百度贴吧前十页

在子目录下创建一个tieba的空文件夹import requestsimport os#基础urlbase_url = 'http://tieba.baidu.com/f?'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Geck...

2019-12-18 14:03:16 1812 1

原创 python爬虫基础项目 -- 爬取新浪新闻

import requestsbase_url = 'https://search.sina.com.cn/?'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537....

2019-12-18 13:32:21 414

原创 python爬虫基础项目 --爬取百度页面

#1.导包import requests#2.确定urlbase_url = 'https://www.baidu.com/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Sa...

2019-12-18 11:13:49 477

原创 python使用递归方法计算一个list中的最大值和最小值

def MaxMin(L): if not isinstance(L,list): print('L是一个list') return None if len(L)<=0: print('L不能是空列表') return None return list(L,0,len(L)-1)def list(L, start, end): ##假设一个边界L 给两个参数 ...

2019-12-18 10:18:16 2311 1

原创用递归的方法获取一个list的最大值和最小值，return（最大值，最小值）

用递归的方法获取一个list的最大值和最小值，return（最大值，最小值）def list(L, start, end): if end-start <=2: return (max(L[start], L[end]), min(L[start], L[end])) max1, min1 = list(L, start, (start+end)//2) ...

2019-12-17 22:21:57 622

原创获取一个list的最大值和最小值，return（最大值，最小值）

***用递归的方法获取一个list的最大值和最小值，return（最大值，最小值） ***def maxmin(lists): max = lists[0] min = lists[0] for list in lists: if list>max: max=list if min>list: ...

2019-12-17 20:55:49 641

360浏览器所以界面的广告爬取项目.py

Django的配置与使用.pdf

空空如也