python
CtrlZ1
浮天水送无穷树,带雨云埋一半山。
展开
-
关于决策树
关于决策树:https://blog.csdn.net/u012328159/article/details/70184415转载 2018-10-24 19:52:36 · 146 阅读 · 0 评论 -
完整pyspider安装
通过pip install pyspider,部分win10用户在安装pyspider时可能会出现Command "python setup.py egg_info" failed with error code 10 in ……这个错误,是因为找不到pycurl导致,所以我们需要用下面的方法。一、pip install wheel二、访问:http://www.lfd.u...原创 2019-07-20 21:28:42 · 438 阅读 · 0 评论 -
崔庆才flask+scrapy维护cookies过程及代码讲解
源码请访问其github,https://github.com/Python3WebSpider/CookiesPool下面开始一步一步来讲解代码:首先看run.py看一下程序的入口from cookiespool.scheduler import Schedulerdef main(): s = Scheduler() s.run()if __name__ ...原创 2019-07-25 13:35:49 · 411 阅读 · 1 评论 -
scrapy小功能之scrapy shell
Pycharm的scrapy文件下的命令行中输入scrapy shell +网址(如quotes.toscrape.com)就可以操作,输入语句就可以得到页面返回结果。下面就是输入……shell……之后的命令行交互界面:我要测试原网页的页面元素是不是选取正确:回车原网页:非常实用,当你不清楚抓取语句写的是否正确时,就可以用这个来检测。退出这个模式:ex...原创 2019-07-21 19:39:37 · 184 阅读 · 0 评论 -
Scrapy使用Downloader Middleware设置代理访问网站
一、首先上网找到一个好用能用的代理二、找到以后设置代理:win10打开控制面板里的internet选项里的局域网设置,在这里设置勾选,设置好代理后,点击确定。代理设置完毕。三、代码实现middlewares.pyclass ProxyMiddleware(object): logger=logging.getLogger(__name__) #返回...原创 2019-07-22 15:20:06 · 758 阅读 · 0 评论 -
Python爬虫框架之Scrapy详解【转】
scrapy爬虫安装:首先,安装Python,pip,然后使用pip安装lxml和scrapy,这样就可以新建scrapy项目了。然后,在命令行使用scrapy startproject xxx命令新建一个名为xxx的scrapy爬虫项目。scrapy爬虫内部处理流程:我们在使用scrapy写爬虫,一般要继承scrapy.spiders.Spider类,在这个类中,有个数组类型的变量sta...转载 2019-07-22 16:19:43 · 281 阅读 · 0 评论 -
scrapy抓取知乎全部用户信息
先说一下核心思想,从一个大v开始,抓取他的关注和粉丝,然后再遍历这两个群体,再抓关注和粉丝,层层抓下去,就会覆盖知乎的所有用户。好,让我们先分析分析知乎这个网站,提示一下知乎访问是需要一些请求头的,DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) A...原创 2019-07-26 21:03:32 · 300 阅读 · 2 评论 -
Scrapy源码解读01之命令行(Command line tool)
源码网址:https://doc.scrapy.org/en/latest/topics/commands.html创建项目:scrapy startproject 项目名称 [项目目录]如果不写项目目录,则会在命令运行的目录下创建一个和项目名称一样的文件夹,存放项目文件创建爬虫文件scrapy genspider 爬虫名字 爬虫网址例如scrapy genspider z...原创 2019-07-27 21:03:03 · 225 阅读 · 0 评论 -
numpy.random.permutation()打散数据同时保证数据x,y原本映射不变
想象这样一个应用场景,我有两个训练数据x和标签y一一对应的numpy数组,同时我想打乱他们的顺序,同时不改变每个x和对应y的映射关系,该怎么办呢?直接看下面的代码就懂了~import numpy as npy=np.array([[1],[2],[3]])x=np.array([["agg"],["asdgfasdfg"],["asdfffffffffff"]])shuffle_ind...原创 2019-09-26 16:22:50 · 1049 阅读 · 0 评论 -
selenium+pyquery爬取京东美食并存入mongodb数据库
一、首先我们分析一下京东站点:要是想爬取美食的话,我们首先需要在搜索输入框里输入我们要搜索的内容,也就是“美食”两个字,然后点击搜索按钮,这个技术我们需要用selenium来实现模拟操作,我们用一个search函数来实现def search(): try: # 我们要确保所有元素加载完成,所以需要一个判断 # 谷歌搜索python seleni...原创 2019-07-20 09:54:19 · 489 阅读 · 0 评论 -
cookies池和proxy池【转】
https://github.com/Python3WebSpider/CookiesPoolhttps://github.com/Python3WebSpider/ProxyPool首先从上面的俩个网址上下载下来工具运行run.py可以在0.0.0.0:5000/weibo/random 得到cookies可在localhost:5555/random中得到proxy---...转载 2019-07-24 17:54:17 · 338 阅读 · 0 评论 -
Django startapp
虽然这是一个很细节的知识点,但是很重要而且容易忘记,所以在这里整理一下。首先,进入到项目的manage.py目录下,然后python manage.py startapp +名字 ...原创 2018-11-07 19:07:09 · 4132 阅读 · 0 评论 -
python3.6 + Django 连接数据库:Error loading MySQLdb module: No module named 'MySQLdb'
在 __init__.py 文件中添加下面的代码:import pymysql pymysql.install_as_MySQLdb()原创 2018-11-13 12:16:26 · 426 阅读 · 0 评论 -
关于python操作excel的代码及一些感悟
首先我们来看看一些python操作excel的主流包:xlrd-----excelread xlwt------excelwrite xlutils openpyxl xlsxwriter我们挨个来说,故事开始.......情景一:xlwt小明接到老板的命令,对,是命令,不是要求,要用python新建并构造一个excel,然后保存。这让小明十分的伤脑筋...原创 2018-11-15 20:45:11 · 553 阅读 · 0 评论 -
Matplotlib植入PyQt5 + QT5的UI呈现
实现matplotlib图形通过PyQt5+Qt5在GUI中呈现步骤:第一步,通过matplotlib.backends.backend_qt5agg类来连接PyQt5:1 import matplotlib2 matplotlib.use("Qt5Agg") # 声明使用QT53 from matplotlib.backends.backend_qt5agg import Fig...转载 2018-11-25 16:55:54 · 2405 阅读 · 0 评论 -
机器学习之PCA算法
一、定义 PCA,即主成分分析法,是一种旋转数据集的方法,所谓主成分就是最大方差的主要方向,一般来说,主成分的个数与原始特征相同。二、应用2.1降维从而达到数据可视化的目的: 很多数据集的维度很高,而我们如果想得到可视化的效果,必须降到三维及以下,所以,这就需要用到PCA算法。下面以乳腺癌数据集为例,进行分析:好,延续我们以前的习惯,把想说的话放到代码...原创 2019-01-18 15:31:35 · 1078 阅读 · 0 评论 -
用最通俗的语言讲机器学习之核支持向量机(SVM)
额,对于这个东西我不想扯得太复杂,我也不是什么计算机科学家,我学这个东西包括学机器学习的目的一直都很简单直接粗暴单纯,就是三个字:打建模!是的,我就是个俗人,所以写的这篇文章非俗人是看不懂的,如果有想看什么高深原理的就趁早自行绕道,免得扰了兴致,好,自我介绍完毕,下面开始自嗨环节。1.核支持向量机之通俗简介:核支持向量机,简称SVM,可以用于分类和回归,分类可以用SVC实现,...原创 2019-01-24 19:27:57 · 2150 阅读 · 1 评论 -
pycharm使用查找和替换功能转化字典格式
哇,今天跟着崔神学到了一个绝招。pycharm还可以这么用~!一张图足够描述了我从网页把请求头复制过来,但是并不是字典格式,这要一个一个转的话也要花上几分钟,而崔神直接用Ctrl+R使用查找替换功能,用正则表达式查找,然后替换就ok了,编译器还是用的不够熟练~...原创 2019-07-23 20:03:37 · 1375 阅读 · 0 评论 -
Python爬虫进行Cookie登录
不太喜欢说废话,直接开始。一、首先找到发送登录请求(post或get)的url:可以用抓包工具来进行捕捉,我用的工具是fiddler。fidder的安装及使用方法大家自行百度。这里假设大家已经安装成功并且会使用该工具。(还是提醒一点吧,此工具与其他的工具有点不同,代理端口是8888,而不是8008)当然也可以不用抓包工具,用浏览器的F12功能也可以看见:首先,以一个需要登录之后...原创 2019-07-17 14:58:09 · 2867 阅读 · 0 评论 -
python flask实现对mongodb数据库的CURD
首先关于flask框架,我之前没有用过python的web框架,只是知道有django和flask两种框架,由于之前学过java的spring框架,知道有个MVC这么个东西,然后对于flask就有点束手无策,文件可以随便建立,需要遵循什么结构或者方针吗?百度之后得到了下面这段话这么个结论:Django框架的强大就肯定意味着它是一款重量级框架,而对于初学者来说,这可能是一种灾难。如果初学者没有...原创 2019-10-07 20:55:41 · 2169 阅读 · 0 评论