2020年04月_小瓶盖的猪猪侠

11月 10月 09月 08月 07月 06月 05月 04月

原创 scrapy框架学习之CrawlSpider样例

# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass WeixinSpider(CrawlSpider): name = 'weixin' allowed_do...

2020-04-29 17:45:45 161

原创 scrapy框架学习之demo2

在该部分将pipeLine模块加上直接上代码qsbk.py# -*- coding: utf-8 -*-import scrapyfrom tutorial.items import TutorialItemfrom scrapy.http import responseclass QsbkSpider(scrapy.Spider): name = 'qsbk' a...

2020-04-24 21:49:02 139

原创 scrapy框架学习之demo1

环境配置1、安装Scarpy库2、安装pypwin32库创建项目在pytharm的终端创建一个scrapy的项目scrapy startproject tutorial相应的目录下就有了刚刚创建的项目创建爬虫来到刚刚的项目中的spiders的目录下，继续在pycharm下的终端输入scrapy genspider qsbk "qiushibaike.com"代码，创建一个...

2020-04-24 17:54:09 160

原创 selenuim篇之拉勾网爬虫

from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsimport time,randomfrom lxml import etreedef next_click(button): global driver action = Ac...

2020-04-24 14:03:51 136

原创 selenium篇之其他

屏幕截图from selenium import webdriverdriver = webdriver.Firefox()driver.get('http://www.python.org/')driver.save_screenshot('screenshot.png')driver.quit()如何向下滚动到页面底部您可以使用execute_script方法在加载的页面上执...

2020-04-23 16:55:16 102

原创 selenium篇之行动链

常用接口说明接口描述click（on_element = None ）单击一个元素double_click（on_element = None ）双击一个元素move_by_offset（xoffset，yoffset将鼠标移动到当前鼠标位置的偏移处move_to_element（to_element ）将鼠标移到元素的中间move_to_el...

2020-04-23 15:39:58 158

如今，大多数Web应用程序都在使用AJAX技术。当浏览器加载页面时，该页面中的元素可能会以不同的时间间隔加载。这使查找元素变得困难：如果DOM中尚不存在元素，则定位函数将引发ElementNotVisibleException异常。使用等待，我们可以解决此问题。等待使执行的动作之间有些松懈-主要是定位元素或对该元素进行的任何其他操作。Selenium Webdriver提供两种类型的等待-隐式和...

2020-04-23 15:04:16 102

原创 selenium篇之元素定位

元素定位官网传送门有多种策略可以在页面中定位元素。您可以根据自己的情况选择最合适的一种。Selenium提供了以下方法来查找页面中的元素：find_element_by_idfind_element_by_namefind_element_by_xpathfind_element_by_link_textfind_element_by_partial_link_t...

2020-04-23 14:31:10 206

原创 python爬虫之'chromedriver' executable needs to be in PATH解决办法

1、首次选择适合自己版本的chromedriver，如何选择可以看我这篇文章2、将chromedriver.exe文件放到google浏览器的安装目录，我的google浏览器安装目录是C:\Program Files (x86)\Google\Chrome\Application3、再次执行测试程序from selenium import webdriverdriver_path = ...

2020-04-23 09:25:04 2752

原创 chromedriver安装

ChromeDriver仓库和淘宝ChromeDriver仓库

2020-04-23 08:50:30 926

原创 python爬虫之斗图网

单线程import requestsfrom lxml import etreefrom urllib import requestimport osheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...

2020-04-22 22:13:31 228

原创 python爬虫之Queue队列

Queue队列类型FIFOQueue.Queue(maxsize=0)FIFO即First in First Out,先进先出。Queue提供了一个基本的FIFO容器，使用方法很简单,maxsize是个整数，指明了队列中能存放的数据个数的上限。一旦达到上限，插入会导致阻塞，直到队列中的数据被消费掉。如果maxsize小于或者等于0，队列大小没有限制。LIFOQueue.LifoQueu...

2020-04-22 19:57:50 644

原创 python爬虫之生产者与消费者

普通生产者与消费者模式import threadingimport random,timeItem = 1000lock = threading.Lock()class Producter(threading.Thread): def run(self): global Item while(True): time.sle...

2020-04-22 17:21:27 384

原创 python爬虫之threading多线程

python在创建多线程时，需要引用threading库Thread类创建多线程Thread类创建多线程，将需要执行的函数作为target参数传入其中def Coding(): for x in range(3): print("正在写代码%s" % threading.current_thread()) time.sleep(1)def Drwa...

2020-04-22 16:18:55 265

原创 pycharm爬虫之与mysql操作

在连接mysql数据库时，采用的是pymysql库测试连接数据库import pymysqldb = pymysql.connect(host="192.168.218.129",user="root",password="11111111",database="pymysql",port=3306)# 使用cursor()方法获取操作游标cursor = db.cursor()#...

2020-04-22 13:55:27 431

原创 centos7安装mysql

由于CentOS 的yum源中没有mysql，需要到mysql的官网下载yum repo配置文件一、下载并安装MySQL官方的 Yum Repository[root@localhost ~]# wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm使用上面的命令就直接下载了Yum Reposit...

2020-04-22 09:54:41 214

原创 centos禁用防火墙

查看防火墙状态systemctl status firewalld.service执行关闭命令systemctl stop firewalld.service执行开机禁用防火墙自启命令systemctl disable firewalld.servicesystemctl status firewalld.service一波操作之后，防火墙就禁用了，...

2020-04-21 21:51:33 132

原创 python学习之从csv文件中读取数据

python学习之将数据写入到csv文件中介绍了如何将内存中数据写入到csv文件中，这节将介绍如何从csv文件中读取数据，读取数据也分为返回的是列表形式和字典形式列表形式按行读取，返回每行内容import csvwith open("test.csv","r",encoding="utf-8") as f: f_read = csv.reader(f) next(f_re...

2020-04-21 21:40:02 3350

原创 python学习之将数据写入到csv文件中

在python中，将数据写入到csv文件中分为将列表形式数据写入和将字典形式数据写入，在使用csv相关操作时，需要加载csv模块列表形式将列表形式数据写入到csv文件中，主要使用到了csv.writer 、writerow和writerows函数，分别是将打开的文件描述符转化为csv对象，写入单行数据、写入多行数据import csvhead = ["name","age"]data ...

2020-04-21 21:14:59 5614

原创 python爬虫之json.dump与json_dumps

python提供了json.dump与json_dumps两个函数将python对象转化为json格式的字符串json.dumps函数json.dumps函数是在内存中将python对象转化为json格式的字符串import jsonob = [ {"name":"小名", "age":23 }, {"name":"消防", "age":23...

2020-04-21 20:13:24 716

原创 python爬虫之json.load与json.loads

之前介绍了如何将python对象转化为json格式字符串用于保存，这里将介绍如何将json格式字符串转化为python对象json.loads函数json.loads函数是将内存中json格式字符串转化为python对象json_str = '[{"name": "小名", "age": 23}, {"name": "消防", "age": 23}]'objson = json.loads...

2020-04-21 20:12:24 1036

原创 python爬虫之中古诗网

网址https://www.gushiwen.org/default_1.aspx

2020-04-21 16:23:20 329

原创 python学习之字符串删除特定字符

replace函数语法str.replace(old, new[, max])old – 将被替换的子字符串。new – 新字符串，用于替换old子字符串。max – 可选字符串, 替换不超过 max 次样例str = "this is string example....wow!!! this is really string";print(str.replace("is...

2020-04-21 16:09:28 179

原创 python学习之enumerate函数

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。a = ["sf","svv"]for v in enumerate(a): print(v)直接结果(0, 'sf')(1, 'svv')我们可以通过enumerate函数修改数组内容例如a = ["sf","svv"]...

2020-04-21 15:37:39 203

原创 python学习之zip函数

zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。zip 方法在 Python 2 和 Python 3 中的不同：在 Python 3.x 中为了减少内存，zip() 返回的是一个对象。如需展示列表，需手动 list() 转换...

2020-04-21 08:44:57 79

原创 python爬虫之re模块

match函数match：从开始的位置进行匹配。如果开始的位置没有匹配到。就直接失败了。text = "hello"ret = re.match("h",text)print(ret.group())search函数在字符串中找到第一个满足条件的。text = "hello"ret = re.search("e",text)print(ret.group())group 分...

2020-04-20 23:58:44 275 1

原创 python爬虫之正则表达式

字符符号描述.匹配除换行符以外的任意字符\w匹配字母或数字或下划线(word)\s匹配任意的空白符(space)\d匹配数字(digital)\n匹配一个换行符\t匹配一个制表符\b匹配一个单词的结尾^匹配字符串的开始，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符本身，请使用 ^。$匹...

2020-04-20 22:29:03 235

原创 python学习之全局变量与局部变量

全局变量定义在函数外的变量定义在函数内的变量a = 1def fun(): b = 2在上面的代码中，变量a为全局变量，变量b为局部变量，a可以在fun函数内部访问，但是变量b无法在函数外被访问函数中访问全局变量def fun1(): print(a)def fun2(): a =3 print(a)def fun3(): a = a ...

2020-04-20 20:27:52 254

原创 python爬虫之天气预报网

import requestsfrom bs4 import BeautifulSoupheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}c...

2020-04-20 19:05:40 170

原创 python爬虫之不规则html文本解析

在使用bs4时，经常会遇见不规则html文本，这时候需要使用html5lib库进行解析html = BeautifulSoup(text, "html5lib")

2020-04-20 16:25:19 705

原创 python爬虫之Beautifulsoup库

https://www.cnblogs.com/OliverQin/p/12595647.htmlhttps://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

2020-04-20 00:13:20 216

原创 python爬虫之电影天堂

import requestsfrom lxml import etreeBASE_URL="https://www.dytt8.net"url = "https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"headers1 = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win...

2020-04-17 20:59:28 3045

原创 python学习之format 格式化函数

Python2.6 开始，新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。format 函数可以接受不限个参数，位置可以不按顺序字符串处理print("{} {}".format("hello", "world")) # 不设置指定位置，按默认顺序print("{0} {1}".format("he...

2020-04-17 09:55:33 207

原创 python学习之map函数和lambda函数

map函数map()是 Python 内置的高阶函数，它接收一个函数 f 和一个 list，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 并返回。map(function, iterable, ...)function – 函数名或者匿名函数iterable – 一个或多个序列，在这里需要看前面function的参数个数，在map中，不会对iteta...

2020-04-17 09:19:32 420

原创 python爬虫之xpath

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的选取节点表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。.选取当前节点。…选取当前节点的父节点。@选取属性。实例...

2020-04-15 18:25:25 128

原创 python爬虫之requests库(二）

结合python爬虫之requests库(一）部分，我们继续，接下来将首先介绍requests的post方法。我们还是来访问http://httpbin.org/postimport requestsdata = {"key1":"value1","key2":"value2"}url = "http://httpbin.org/post"re = requests.post(url,d...

2020-04-14 17:47:43 528

原创 python爬虫之requests库(一）

requests库是一个常用的用于http请求的模块，它使用python语言编写，可以方便的对网页进行爬取，是学习python爬虫的较好的http请求模块requests库的安装在这里，我是使用pycharm对requests库进行安装的，首先选择File->settings,找到Project pychram，点击右边的加号在弹出栏中输入requests选中，然后点击下面的inst...

2020-04-14 16:04:12 3411 1

原创 python爬虫之使用静态Cookie模拟用户登录

首先介绍下Cookie内容，什么是Cookie。Cookie的引文原意是“点心”，它是在客户端访问Web服务器时，服务器在客户端硬C盘上存放的信息，好像是服务器发送给客户的“点心”。服务器可以根据Cookie来跟踪客户状态，这对于需C要区别客户的场合（如电子商务）特别有用。当客户端首次请求访问服务器时，服务器先在客户端存放包含该客户的相关信息的Cookie，以后客户端每次请求访问服务器时，都会在H...

2020-04-14 09:35:26 519

原创 pychram代码自动换行

第一步：打开pycharm的File->settings第二步：找到General->Soft Wraps,勾选箭头所指内容，添加需要换行的文件类型,我这里添加的是;*.py，记住文件类型之间使用“;”分隔，使用“;”分隔，使用“;”分隔最后记得要点确认！最后记得要点确认！最后记得要点确认！重要的事说三遍完成上面操作，就可以看到结果啦...

2020-04-14 08:51:43 370

原创 pychram控制台自动换行设置

第一步：打开pycharm的settings第二步：在General目录下找到Console，勾选下面箭头所指内容。完成控制台自动换行最后记得要点确认！最后记得要点确认！最后记得要点确认！重要的事说三遍...

2020-04-14 08:51:07 560

特征选择:过滤法，嵌入法，包装法

2023-06-15

spring-5.2.6.RELEASE-dist.7z

Spring框架是一个开放源代码的J2EE应用程序框架，由Rod Johnson发起，是针对bean的生命周期进行管理的轻量级容器（lightweight container）。

2021-07-18

hadoop-lzo-0.4.21-SNAPSHOT.jar

hadoop-lzo-0.4.21-SNAPSHOT.jar是hadoop数据压缩lzo工具包

2021-06-28

mysql57-community-release-el7-9.noarch.rpm

解压密码mysql,用于安装数据库的东西，也可以通过官网上下载，可能速度会慢点，也可以通过官网上下载，可能速度会慢点，也可以通过官网上下载，可能速度会慢点，重要事说三遍

2020-10-25

LSM-tree.7z

LSM使用了一个算法来延迟批处理索引变更，然后类似归并排序的方式串联起一个基于内存的组件和若干基于磁盘的组件上面的所有变更信息。该算法相比于传统的B树访问方式大大减少磁盘臂的移动开销。

2020-07-06

NetAssist.zip

前端的车载终端把gps、报警信息、报警图片、其他检测数据发往约定的第三方服务器，车载终端通过公网（SIM拨号或者有线网）以udp或者tcp连接服务器，并把数据发往服务器。因为项目开发时一般要不到现场实际服务器的ip和端口以及服务器环境。那么就可以通过NetAssist网络助手工具模拟服务器，模拟测试车载端的数据是否能够发送正常、正确。

2020-05-21

MySQL15_47360.zip

Navicat for MySQL 15是为MySQL量身打造的一款数据库管理软件，软件界面简洁美观，支持数据传输和导入导出等功能，可以用于任何版本的 MySQL数据库服务器。该软件可以连接您的远程数据库或者您的本地数据库，并与 Amazon RDS，Amazon Aurora、Oracle Cloud 和 Google Cloud 等云数据库兼容，并支持大部份MySQL的功能，包括触发器、存储过程、函数、事件、视图、管理用户等。软件为数据库管理、开发和维护提供了一套直观而强大的图形界面，拥有极好的图形用户界面，用户可完全控制 MySQL 数据库和显示不同的管理资料，包括一个多功能的图形化管理用户和访问权限的管理工具，方便将数据从一个数据库转移到另一个数据库中，进行档案备份。在创建连接后，你可以连接到数据库，管理它的对象、表中的数据等；Navicat for MySQL 15采用树状结构，让你透过弹出菜单快捷及方便地使用数据库和它们的对象

2020-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

特征选择:过滤法，嵌入法，包装法

spring-5.2.6.RELEASE-dist.7z

hadoop-lzo-0.4.21-SNAPSHOT.jar

mysql57-community-release-el7-9.noarch.rpm

LSM-tree.7z

NetAssist.zip

MySQL15_47360.zip

DOSBox0.74-win32-installer.zip

DOSbox使用的masm.zip

copy fofboiv sfbo .zip

《机器学习与应用》_雷明 百度网盘

Pig编程指南.pdf

空空如也

《机器学习与应用》_雷明百度网盘