![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
会编程的漂亮小姐姐
所有的高薪,背后都是玩命的付出和不懈的坚持,这也是为什么会有这样的现象:越厉害的人,反而越努力。切记,别用今天的安逸换来一辈子的艰难,这是天底下最赔本的买卖。
展开
-
添加谷歌扩展程序遇到的问题
休假结束,感觉整个脑袋像个浆糊一样。啊啊,今天添加谷歌扩展 程序花了很久,一个很简单的问题弄了。添加代理插件的时候一直失败,提示不是扩展程序或者未能成功加载扩展程序。最后直接下图傻瓜式操作解决。...原创 2020-07-21 15:59:17 · 796 阅读 · 0 评论 -
项目遇到的一些问题
近期做的都是迭代项目,代码基本每个月都可以正常运行,只是如果突然加速,会导致某些网站数据拿取不到。故特地做一下总结,主要目的是为了提醒我自己:1.爬虫迭代项目最好控制匀速爬取,不要突然大量提速,容易导致爬虫被识别到2.代码的爬虫行为被网站检测到后,可能1-2小时左右,无法从网站拿取到数据,此时不要着急修改代码,可以先等上2小时候后再运行爬虫基本每次突然大量提速,一些本来反爬比较严格的网站就会...原创 2019-12-25 14:39:05 · 180 阅读 · 0 评论 -
搭建scrapy环境中一直报错,需要安装visual-cpp-bulit-tools
自己搭建了两次scrapy环境都遇到c++错误,可是每次都没找到合适的c++环境,特将此下载链接附上。https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/原创 2018-10-26 19:42:11 · 131 阅读 · 0 评论 -
大象代理API提取
提取大象代理API运行代码一致提示Starting new HTTP connection (1): error|没有找到符合条件的ip:80,试了好几次还是不行啊,最后终于成功了。特地截图保存提取方法。...原创 2018-10-29 15:58:21 · 4062 阅读 · 0 评论 -
构造data时双引号导致403错误
for j in column: print(j) for i in range(1, 4): data = {"keyword": "%s" % j, "filter": "{\"location\":[],\"industryshort\":[],\"registercapital\原创 2018-10-25 10:12:21 · 92 阅读 · 0 评论 -
接口请求爬虫数据遇到的一些问题
headers={‘Content-Type’: ‘application/x-www-form-urlencoded; charset=GBK’,‘User-Agent’: ‘Dalvik/1.6.0 (Linux; U; Android 4.4.2; M6 Note Build/N2G47H)’,‘Host’: ‘app.bidchance.com’,‘Accept’: ‘/’,‘C...原创 2018-10-09 16:03:28 · 1697 阅读 · 0 评论 -
TypeError: object is not callable
If you want to define classes that are callable that’s of course fine but you need to define the call protocol method:class MyModelingFunction(object):…def __call__(self, *args, **kwargs): """d...原创 2018-09-30 11:21:12 · 1251 阅读 · 0 评论 -
how to get the company name fast
import jsonimport randomfrom time import sleepimport requestsfrom lxml import etreeheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/' '537.36 (KHT...原创 2018-10-15 15:17:10 · 146 阅读 · 0 评论 -
how to get token
def get_token(self): import requests import json login_headers = { 'Hos': 'biz.ggosb.com', 'Connection': 'keep-alive', 'Content-Length': '55...原创 2018-10-15 15:14:28 · 283 阅读 · 0 评论 -
简单文件读取和写入代码
import csvfl = open(‘names.csv’,‘w’,encoding=‘utf-8’)fl.write(’"’+‘name’+’"’)fl.write(’\n’)with open(‘zq_changchun1688.csv’,‘rt’,encoding=‘utf-8’) as f:reader = csv.DictReader(f)column = [row[‘n...原创 2018-10-15 11:07:02 · 300 阅读 · 0 评论 -
爬虫输出的名字为空字符串{'name': ''}
可以写一个简单的判断,当长度不为0才执行插入操作 if len(companyName) > 0: yield item原创 2018-10-14 23:09:14 · 449 阅读 · 0 评论 -
如何获取user = 'admin'中的
#从第五个"开始做切片print(‘593f\t"cn.er"\t"3$8ER8CXQeTBk"\t"成都信安电子有限公司"’.split(’"’)[5])print(type(“user = ‘admin’”.split("’")[1]))print(“user = ‘admin’”.split("’")[1])...原创 2018-09-29 14:54:23 · 421 阅读 · 0 评论 -
gou(1):第一次页面爬取遇到的一些简单问题
错误1:我把item = TyunItem()写在了for循环外面,导致存入数据库中的内容一直一样。def parse(self, response): li_list = response.xpath('/html/body/section/div[2]/div[2]/table/tbody/tr') # return for li in li_list: ...原创 2018-09-29 11:32:07 · 339 阅读 · 0 评论 -
fiddler连接模拟器配置
1.fiddler端设置截图2.配置好以上设置后,查看本机IP,在 手机端设置手动代理。3.在手机端下载fiddler证书,打开浏览器,输入:本机IP:8888,安装证书...原创 2018-10-29 16:15:50 · 5584 阅读 · 1 评论 -
如何从html中获取内容
如何获取页面信息有时需要爬取的网页,我们无法查看到其源码,页没办法看到其json,此时,是不是有点绝望?今天遇到一个爬虫网站,http://www.zjzfcg.gov.cn/innerUsed_noticeDetails/index.html?noticeId=3722029 页面有点类似于一个doc文档,一直想看页面源码和json,可是就是找不到啊。最后结果让我吃惊。所有的文档内容全部藏在...原创 2018-10-26 19:29:11 · 4394 阅读 · 1 评论 -
read_from_mongo_to_csv
import csvfrom pymongo import MongoClient# 建立mongo连接client = MongoClient('192.11.11.11', 27017)# client.数据库名db = client.Flight# 用户名密码认证db.authenticate('11', '1@1')#表名字collection = db['test'...原创 2019-01-04 10:10:47 · 137 阅读 · 0 评论 -
scrapy中间键如何使用代理IP和用户代理
1.middleware.py中代码class IPPOOlS(HttpProxyMiddleware): def __init__(self, ip=''): self.ip = ip # 请求处理 # 先随机选择一个IP def process_request(self, request, spider): thisip =...原创 2018-11-27 19:14:24 · 1485 阅读 · 0 评论 -
构造请求头访问页面
url1 = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=%s&kt=3&la...原创 2018-11-21 22:53:02 · 945 阅读 · 0 评论 -
一个简单的获取天气例子
import requestsfrom lxml import etreeheaders={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}url = 'http://...原创 2018-11-21 22:48:57 · 532 阅读 · 0 评论 -
获取json语句中的某一字段,字段可以能为空,如何防止程序异常终止
有时候我们获取json语句中的某一字段,字段可以能为空。可以采用以下两种方法来编写代码避免程序因找不到目标对象而终止。# try:# label = all_json2['APP']['label'] # 标签# except:# label = ''label = all_json2['APP'].get('label','')...原创 2018-11-02 15:15:14 · 596 阅读 · 0 评论 -
如何将csv中内容写入到redis中
import csvimport redisr = redis.StrictRedis(host='47.115.124.39', port=6379, db=1, password='123456')with open('tets.csv', 'rt', encoding='utf-8') as csvfile: reader = csv.DictReader(csvfile)...原创 2018-11-02 15:12:33 · 3894 阅读 · 0 评论 -
scrapy爬虫不调用process_item函数的问题
爬虫的时候需要process_item函数一直不执行,后来百度找到原因:1、正确配置settings.py文件2、爬虫文件parse()函数一定要有yield语句 即yield item原创 2018-11-06 15:38:18 · 1531 阅读 · 0 评论 -
Linux系统上运行scrapy框架代码环境安装教程
1: we have to install python enviroment.Linux system has its own python,but the edtion maybe too old.we can use it or install our own python.The way to install python is following.install pythonsudo...原创 2018-11-01 15:18:10 · 991 阅读 · 0 评论 -
在linux上运行爬虫任务报错:Overridden settings******
在scrapy-setting中将redis、mongodb的IP以及端口号修改为外网IP以及端口号原创 2018-11-01 14:22:23 · 1263 阅读 · 0 评论 -
mongoDB基本命令
1.查看表中数据总数db.getCollection(‘company_info’).find().count()原创 2018-10-30 18:20:41 · 130 阅读 · 0 评论 -
自我检讨:POST和GET
今天一直在跑一个程序,代码和以前写的也一样,可是一直没有运行出来!一直在找错误,问了朋同事,百度。最后在下午4点的时候才发现错误!错在哪里?吐血!!!POST和GET请求没有自习区分,代码是修改了一遍又一遍,可是关键的请求没有搞对!这个错误已经第二次遇到了,前天也是这个错误困住了我两个小时,今天又在同一个地方摔倒!必须写检讨好好反省,博客写了那么多,不是为了好看,自己应该多温故而知新!从现...原创 2018-10-11 16:05:06 · 184 阅读 · 1 评论 -
通过切片获取爬虫结果中想要的字段
例如:字段“980人付款”,只要前面的数字980,可以按照如下切片方式'deal': li.find(class_='deal-cnt').get_text()[:-3],#去掉最后三个(从0开始一直做切片到索引-3,但不包括-3)...原创 2018-10-02 22:30:07 · 1270 阅读 · 0 评论 -
爬虫3:如何反爬虫和控制爬虫的速度-setting设置
1.修改是否遵守爬虫协议为False# Obey robots.txt rulesROBOTSTXT_OBEY = False2.修改并发请求数,修改为1,或者2,越小爬取速度越慢,太快容易被识别到# Configure maximum concurrent requests performed by Scrapy (default: 16)CONCURRENT_REQUE...原创 2018-08-20 11:03:27 · 9337 阅读 · 4 评论 -
爬虫5:如何取Table中的值
def detail(self, response): item = response.meta['item'] # 名称 item['disease_name'] = response.xpath('/html/body/section[1]/header/div[1]/a/h1/text()').extract()[0] #...原创 2018-08-20 10:42:18 · 3957 阅读 · 0 评论 -
mysql数据表中,如何判断某一条记录是否重复
#检测foodname是否重复select foodname,count(*) as count from tablename group by foodname having count>1;原创 2018-08-27 11:04:31 · 8756 阅读 · 0 评论 -
MySQL给一个字段递增赋值
在mysql中,设计表时设计的是一次递增,有时中间会删除一两行,导致ID不连续,这时,可以采用以下方法将ID改为连续的。首先设置一个变量,初始值为0:set @r:=0;然后更新表中对应的ID列:update tablename set id=(@r:=@r+1)如果是插入,那就找一个记录多的表t1set @r:=0;insert into t select ...原创 2018-08-27 11:02:25 · 4259 阅读 · 1 评论 -
如何将带单引号的数据正确的以JSon形式插入到mysql中
1.spider代码以下代码尤其注意.replace(“’”, “””)这个方法,因为有事不执行‘替换成’‘,在数据插入到mysql中容易出错。 #工艺的具体细节 item['food_make_content'] = response.xpath('//*[@id="content"]/div[1]/div[3]/dl/dd/div[2]/ul/li/text()').ex...原创 2018-08-27 09:59:03 · 2234 阅读 · 0 评论 -
ValueError: Missing scheme in request url: xxxxxx
解决办法:prepend url with ‘http’ or ‘https’ start_urls = [“http://www.bow.com/“]原创 2018-08-26 15:17:42 · 124559 阅读 · 1 评论 -
数组如何转字符串
1.通过jointext = mingyan.css(".text::text").extract_first() #提取名言tags = mingyan.css(".tags.tag::text").extract()#提取标签,结果为数组tags = ','.join(tags) #数组转换为字符串2.通过for循环item['bansui_symptons'] =...原创 2018-08-22 10:26:56 · 755 阅读 · 0 评论 -
how to get the item in the link address
url = ['www.baibai.cn/page/1/','www.baibai.cn/page/2/]#get item from www.baibai.cn/page/1/,the result is 1page = response.url.split("/")[-2]#make the filename,if page in 1,the filename is result-1...原创 2018-08-22 09:54:00 · 129 阅读 · 0 评论 -
how to get text value of title attribute of anchor tag in python
how to get text value of title attribute of anchor tag in your python?<td class="col_name" nowrap="nowrap"><a class="icon" title="refer me"><img src="https://edu.au/image原创 2018-08-22 09:44:18 · 131 阅读 · 0 评论 -
如何将列表中多个元素取出来
1.如何获取列表中全部的值?当我们获取到一个列表,里面含有5个或者更多的值,此时,我们需要取出全部的5个值。可以用一个for循环取出每个元素。# 获取到症状item['symptons'] = li.xpath('div/p/a/text()').extract()#从列表中取出元素,str=''for s in item['symptons']: str=str+s+...原创 2018-08-12 23:35:24 · 25948 阅读 · 0 评论 -
爬虫2:起始url的表示方法
1.起始地址http://j4b.xy4com/il_sii/symptom/1.htm,其余的url都是’http://j4.xy4y.com/il_sii/sy4ptom/+数组+(.htm),当有10136多个页面,想快速表达这个url方法如下:for i in range(1, 10137): start_urls.append('http://344b.x44y.com/il...原创 2018-08-15 10:40:15 · 1590 阅读 · 0 评论 -
批量替换 MySQL 指定字段中的字符串
参考:https://www.jb51.net/article/19940.htm 爬虫中遇到这样的问题:将所有的数据转换为JSon的时候,都是单引号,但是已经全部导入到数据库,此时重新跑代码不可能,可以采用以下方法替换单引号为双引号。批量替换的具体语法是: 复制代码 代码如下:UPDATE 表名 SET 指定字段 = replace(指定字段, '要替换的字符串', '想要的字符...原创 2018-08-27 15:49:30 · 1628 阅读 · 0 评论 -
Python将多个excel表格合并为一个表格
爬虫过程经常遇到结果分段跑,导致所有的结果分散存在多个Excel表中,现在需要将其合并起来,使用python该怎么做呢?# 下面这些变量需要您根据自己的具体情况选择biaotou = ['id', 'test']# 在哪里搜索多个表格filelocation = "D:\\test\\"# 当前文件夹下搜索的文件名后缀fileform = "xlsx"# 将合并后的表格存放到的...原创 2018-08-23 15:52:03 · 3181 阅读 · 0 评论