2019年07月_CtrlZ1

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Scrapy源码解读01之命令行（Command line tool）

源码网址：https://doc.scrapy.org/en/latest/topics/commands.html创建项目：scrapy startproject 项目名称 [项目目录]如果不写项目目录，则会在命令运行的目录下创建一个和项目名称一样的文件夹，存放项目文件创建爬虫文件scrapy genspider 爬虫名字爬虫网址例如scrapy genspider z...

2019-07-27 21:03:03 190

原创 scrapy抓取知乎全部用户信息

先说一下核心思想，从一个大v开始，抓取他的关注和粉丝，然后再遍历这两个群体，再抓关注和粉丝，层层抓下去，就会覆盖知乎的所有用户。好，让我们先分析分析知乎这个网站，提示一下知乎访问是需要一些请求头的，DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) A...

2019-07-26 21:03:32 274 2

原创崔庆才flask+scrapy维护cookies过程及代码讲解

源码请访问其github，https://github.com/Python3WebSpider/CookiesPool下面开始一步一步来讲解代码：首先看run.py看一下程序的入口from cookiespool.scheduler import Schedulerdef main(): s = Scheduler() s.run()if __name__ ...

2019-07-25 13:35:49 376 1

转载 cookies池和proxy池【转】

https://github.com/Python3WebSpider/CookiesPoolhttps://github.com/Python3WebSpider/ProxyPool首先从上面的俩个网址上下载下来工具运行run.py可以在0.0.0.0:5000/weibo/random 得到cookies可在localhost:5555/random中得到proxy---...

2019-07-24 17:54:17 312

原创 pycharm使用查找和替换功能转化字典格式

哇，今天跟着崔神学到了一个绝招。pycharm还可以这么用~！一张图足够描述了我从网页把请求头复制过来，但是并不是字典格式，这要一个一个转的话也要花上几分钟，而崔神直接用Ctrl+R使用查找替换功能，用正则表达式查找，然后替换就ok了，编译器还是用的不够熟练~...

2019-07-23 20:03:37 1289

转载 Python爬虫框架之Scrapy详解【转】

scrapy爬虫安装：首先，安装Python，pip，然后使用pip安装lxml和scrapy，这样就可以新建scrapy项目了。然后，在命令行使用scrapy startproject xxx命令新建一个名为xxx的scrapy爬虫项目。scrapy爬虫内部处理流程：我们在使用scrapy写爬虫，一般要继承scrapy.spiders.Spider类，在这个类中，有个数组类型的变量sta...

2019-07-22 16:19:43 229

原创 Scrapy使用Downloader Middleware设置代理访问网站

一、首先上网找到一个好用能用的代理二、找到以后设置代理：win10打开控制面板里的internet选项里的局域网设置，在这里设置勾选，设置好代理后，点击确定。代理设置完毕。三、代码实现middlewares.pyclass ProxyMiddleware(object): logger=logging.getLogger(__name__) #返回...

2019-07-22 15:20:06 680

原创 scrapy小功能之scrapy shell

Pycharm的scrapy文件下的命令行中输入scrapy shell +网址（如quotes.toscrape.com)就可以操作，输入语句就可以得到页面返回结果。下面就是输入……shell……之后的命令行交互界面：我要测试原网页的页面元素是不是选取正确：回车原网页：非常实用，当你不清楚抓取语句写的是否正确时，就可以用这个来检测。退出这个模式：ex...

2019-07-21 19:39:37 160

原创完整pyspider安装

通过pip install pyspider，部分win10用户在安装pyspider时可能会出现Command "python setup.py egg_info" failed with error code 10 in ……这个错误，是因为找不到pycurl导致，所以我们需要用下面的方法。一、pip install wheel二、访问：http://www.lfd.u...

2019-07-20 21:28:42 355

原创 selenium+pyquery爬取京东美食并存入mongodb数据库

一、首先我们分析一下京东站点：要是想爬取美食的话，我们首先需要在搜索输入框里输入我们要搜索的内容，也就是“美食”两个字，然后点击搜索按钮，这个技术我们需要用selenium来实现模拟操作，我们用一个search函数来实现def search(): try: # 我们要确保所有元素加载完成，所以需要一个判断 # 谷歌搜索python seleni...

2019-07-20 09:54:19 426

原创 Http中Query string parameters的含义

这里还是记录一下吧，防止自己忘记了。其实就是get请求中url后面要带的参数。也就是说，向对应网址服务器传递这些参数就可以获得请求的内容，属于爬虫的基础知识。如，根据这张图片的内容，可以这么传递参数data={ 'aid':24, 'app_name':'web_search', ……}url='http……………………/?'+urlencod...

2019-07-19 09:59:17 31573 7

原创 Python爬虫进行Cookie登录

不太喜欢说废话，直接开始。一、首先找到发送登录请求（post或get）的url：可以用抓包工具来进行捕捉，我用的工具是fiddler。fidder的安装及使用方法大家自行百度。这里假设大家已经安装成功并且会使用该工具。（还是提醒一点吧，此工具与其他的工具有点不同，代理端口是8888，而不是8008）当然也可以不用抓包工具，用浏览器的F12功能也可以看见：首先，以一个需要登录之后...

2019-07-17 14:58:09 2551

原创 MongoDB安装方法

MongoDB 下载MongoDB 提供了可用于 32 位和 64 位系统的预编译二进制包，你可以从MongoDB官网下载安装，MongoDB 预编译二进制包下载地址：https://www.mongodb.com/download-center#community根据你的系统下载 32 位或 64 位的 .msi 文件，下载后双击该文件，按操作提示安装即可。安装过程中，你可以通...

2019-07-16 15:50:25 172

转载 MongoDB 可视化工具 MongoDB Compass 使用【转】

下载打开官网，如图所示找到下载界面选择版本下载安装运行下载的EXE文件，自动安装。安装完成会弹出主界面。连接MongoDBMongoDB服务默认没有身份验证，所有客户端都可以连接访问。连上之后，可以看到，有三个默认数据库创建数据库点击左侧加号按钮填入数据库名称和集合名称（这里“集合”的意义类似MySQL表），注意一定要填写集合名称，否则报错无法创建。也就是说使...

2019-07-16 15:36:11 1120

迁移学习常用USPS数字数据集

USPS数据集包含0-9十个数字的28*28的图片，通道数为1，可以用于迁移学习，图像识别等。

2021-05-02

mnist_10k_sprite1数字集.zip

一万个手写数字，可用于tensorboard MNIST数据集可视化所需要的图片，用处很多，很广泛，你值得拥有。

2020-02-24

网上的有关这个实验课的代码都写得不正确，我特意整理了一份，直接可以运行的代码，注释详细，输出人性化看得懂实验二 CDMA编码 1、实验题目：CDMA编码 2、实验内容：（1）设全部8比特二进制数集合为M。随机生成8比特码片m1。（2）计算与m1正交的所有8比特码片集合M1。（3）在集合M-M1中随机选取码片m2。（4）计算与m2正交的所有8比特码片M2 （5）以此类推，计算出所有8比特互相正交的码片集合M1、M2、…… 3、实验报告内容：（1） CDMA信道复用原理。（2）随机生成的的5个互不正交的码片M1、M2、M3、M4、M5。（3）获取与某个码片正交的全部码片的算法。（4）记录与M1正交的码片数量及10个与M1正交的码片，不足10个的记录全部码片，互为反码的记为一个。（5）记录与M2正交的码片数量及10个与M2正交的码片，不足10个的记录全部码片，互为反码的记为一个。（6）记录与M3正交的码片数量及10个与M3正交的码片，不足10个的记录全部码片，互为反码的记为一个。（7）记录与M4正交的码片数量及10个与M4正交的码片，不足10个的记录全部码片，互为反码的记为一个。（8）记录与M5正交的码片数量及10个与M5正交的码片，不足10个的记录全部码片，互为反码的记为一个。（9）比较与M1、M2、M3、M4、M5正交的码片总数并简单分析原因。

2019-11-01

zhilian1.zip

本爬虫代码使用scrapy框架写成，使用python语言，数据库使用MongoDB（可根据自己需要随意修改），主要用途就是将智联招聘的各种职业，各个城市，所有页码的招聘信息都爬取到数据库中。

2019-08-17

C#winform窗体+socket实现登录通信聊天软件(可私聊与群聊)

提供两个版本：第一个测试版，是可以在一台电脑模拟实现群聊私聊的（由于ip是一样的，所以写死了）；第二个是成品，如果要测试的话要找局域网内多台不同的电脑测试（因为用户之间是以IP地址区分的）。压缩包里附有完整且正确的代码以及使用说明文档。

2019-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

lyy的博客