- 博客(13)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
转载 基于Scrapy框架编写爬虫项目
知识点:Scrapy模块安装2种安装模块的方式。 以下两种方式可以安装绝大部分模块,网络安装:指直接在控制台 pip install XX下载安装:网络安装虽然简便,但时不时就会失败,这时就可以前往https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载后,用控制台移动到下载文件夹后 pip install xx 来安装...
2018-07-29 17:10:28 648
转载 python爬虫,扒上万条猫眼邪不压正影评------转载+排雷
《邪不压正》评分持续走低,上万条网友评论揭秘,是救救姜文还是救救观众?首先感谢原作者,写的是相当详尽了.但是其中还是有一些坑...特写此贴来帮助其他网友排雷... 万众期待的《邪不压正》已上映有一周时间。 但上映当日早上开画8.2,上映不到一天闪崩到7.1的评分好像已经给这部本该大展拳脚的片子,戴上了一个结结实实的囚具。 首日票房虽然过亿,却依旧不敌多日日票房冠军《我不...
2018-07-27 01:18:48 3409 2
原创 fiddle 下载及配置
1.下载https://www.telerik.com/fiddler2.安装略3.配置以firefox为例:1.打开配置2.搜索网络3.填写代理经过以上3步,即可在fiddel中看见包信息了但还是不能抓取https协议的网站包,需要做如下操作1.导出证书:进入tool-options-https,勾选所有选项选择Aciton-Exp...
2018-07-20 11:28:06 39280 1
原创 python爬虫爬到的字符串带\u的解决方法
a = '\u5386\u9633\u9547'爬虫得到的如上字符串 若想输出时候返回中文字符解决方法如下:a = "u'"+a+"'" print(eval(a))历阳镇
2018-07-19 19:58:22 1768
原创 求索---人工智能之新闻分类
前言:本文介绍的内容当前因本人在机器学习的算法方面技术有欠缺,故对于我来说当下还不能实现.所以此文章的目的主要是介绍前沿科技应用,及梳理自身的知识空白.应用场景:自主爬取互联网上各种文章,对其进行自动分类,如体育/财经/女性/等各种自定义分类.公司应用场景公司从事的是校园代收费业务,需要紧密关注国家相关政策.人工挑选费时费力.若能交由机器处理,将节约不少人力/时间成本.技术实现分...
2018-07-17 10:46:22 730
原创 R语言笔记
赋值x <- xx赋多个值x <- c(a,b,c,d,...) 统计函数样本标准差sd(arg)平均数mean(arg)两个数据间相关性(变动趋势相关性)cor(a,b)线性模型lm(formula,data=data ) (linear models)用来做线性拟合的函数biglm()能以内存高效的方式实现大型数据的线性模...
2018-07-16 10:00:32 628
原创 小白进阶之Scrapy安装.使用.爬取顶点小说信息
感谢原作者的文章小白进阶之Scrapy第一篇里面写的非常详细,但是转存数据库的时候,用的模块是mysql.connector.这个模块官网显示只支持到python3.5.我用的则是pymysql.本文目的是整理这个项目的整体结构,并介绍用pymysql传输数据的用法.建议大家先看原文后,再看我的.另附上(中文版)Scrapy入门教程 零.安装srayp.1...
2018-07-12 14:05:23 603
原创 如何将项目上传到git上
0.在git官网上新建个仓库,记录连接地址如:git remote add origin https://github.com/ljx4471817/scrapy.git1.打开Git Hash2.pwd查看当前工作目录,cd XX转移到特定的工作目录3. 将项目粘贴进目录4.初始化一个Git仓库,使用git init命令。添加文件到Git仓库,分两步:使用命令git add <file&g...
2018-07-12 13:57:45 423
转载 mysql查看正在执行的sql语句
转载自https://blog.csdn.net/lanfan_11/article/details/47837657-- 1、设置-- SET GLOBAL log_output = 'TABLE'; SET GLOBAL general_log = 'ON';-- SET GLOBAL log_output = 'TABLE'; SET GLOBAL general_log = 'OF...
2018-07-11 20:04:21 5230
原创 python爬虫-糗事百科段子
from bs4 import BeautifulSoupimport requestsimport threadingimport mathimport lxmlheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'}# 获取...
2018-07-06 13:42:36 298
原创 python爬虫入门-煎蛋网妹子图片下载
参考:python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索煎蛋网的反扒用了个障眼法..首页读出的img地址是类似这样的.</span><p><img src="//img.jandan.net/img/blank.gif" onload="jandan_load_img(this)" /><span class="img-hash">L
2018-07-05 19:29:49 1168 1
原创 python爬虫-代理ip连接网站
import urllib.request as rimport random# 利用代理ip连接网站的步骤# 某些ip会自动跳转到其他网站,不知道为什么iplist=['88.99.149.188:31288','140.143.96.216:80','195.91.200.216:8080']#1proxy_support = r.ProxyHandler({'http':rand...
2018-07-03 15:54:54 4568
原创 Python爬虫入门--连接有道翻译
import urllib.request as rimport urllib.parse as pimport jsoncontent = input('请输入需翻译的英文')def translate(content): url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rul...
2018-07-02 20:15:22 260
cmd 命令中 怎么粘贴带中文双引号的内容?(操作系统-windows)
2022-05-09
cmd中怎么使用 md 命令创建 带双引号的文件名
2022-05-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人