回眸忆梦-CSDN博客

原创 JDBC入门

JDBC：1. 概念：Java DataBase Connectivity Java 数据库连接， Java语言操作数据库* JDBC本质：其实是官方（sun公司）定义的一套操作所有关系型数据库的规则，即接口。各个数据库厂商去实现这套接口，提供数据库驱动jar包。我们可以使用这套接口（JDBC）编程，真正执行的代码是驱动jar包中的实现类。2. 快速入门：* 步骤：1. 导入驱动jar包 mysql-connector-java-5.1.37-bin.jar1.1复制mysql-connect

2020-07-27 10:41:10 102

原创 Junit测试+反射+注解

Junit单元测试：* 测试分类： 1. 黑盒测试：不需要写代码，给输入值，看程序是否能够输出期望的值。 2. 白盒测试：需要写代码的。关注程序具体的执行流程。 Junit使用：白盒测试定义测试方法：可以独立运行 * 方法名：test测试的方法名 testAdd() * 返回值：void * 参数列表：空参 3. 给方法加@Test 4. 导入junit依赖环境package cn.itcast.junit.test;import cn.itc

2020-07-25 16:23:51 132

原创破解百度翻译接口

import requestsimport jsonimport reimport execjsclass BaiduTranslateSpider(object): def __init__(self): self.get_url='https://fanyi.baidu.com/?aldtype=16047' self.post_url='https://fanyi.baidu.com/v2transapi?from=en&to=zh'

2020-07-02 20:16:33 661

原创 selenium+Chrom爬取京东数据

from selenium import webdriverimport timeclass JdSpider(object): def __init__(self): self.url='https://www.jd.com/' #创建浏览器对象 self.browser=webdriver.Chrome() #计数 self.i=0 #跳转到商品详情页——爬虫书 def get_html(se

2020-07-01 19:50:07 244

原创爬取人人网个人主页

import requestsfrom lxml import etreeclass Renrenlogin(object): def __init__(self): #post_url: form表单中action中的url地址 self.post_url='http://www.renren.com/PLogin.do' #真正要抓取的页面url地址：人人网的个人主页 self.get_url='http://www.renr

2020-06-30 22:52:06 982

原创豆瓣类型电影爬取

import requestsimport jsonfrom fake_useragent import UserAgentimport timeimport randomimport reclass DoubanSpider(object): def __init__(self): #F12抓取的URL地址 self.url='https://movie.douban.com/j/chart/top_list' \ '

2020-06-28 20:11:40 305

原创爬取xicidaili的ip并建立ip代理池

import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport timeimport randomclass IpSpider(object): def __init__(self): self.url='https://www.xicidaili.com/nn/{}' def get_headers(self): ua=UserAgent()

2020-06-24 12:42:15 1480

原创 xpath爬取链家二手房

import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport randomimport timeclass LianjiaSpider(object): def __init__(self): self.url='https://nc.lianjia.com/ershoufang/pg{}/' #功能函数:随机获取User-Agent def get_hea

2020-06-21 18:36:48 537

原创爬取百度图片

import requestsfrom day02_spider.useragents import ua_listimport randomimport osimport refrom urllib import parseclass BaiduImageSpider(object): def __init__(self): self.url='https://image.baidu.com/search/index?tn=baiduimage&word={

2020-06-18 19:44:40 212

原创二级爬取猫眼电影

爬取：电影名称+主演+时间+评论+保存图片到指定路径from urllib import requestimport reimport randomfrom day01_爬虫.useragents import ua_listimport osclass MaoyanSpider(object): def __init__(self): self.url="https://maoyan.com/board/4?offset={}" #获取响应内容 de

2020-06-16 22:11:59 340

原创数据库保存Top100猫眼电影

from urllib import requestimport reimport randomimport timeimport pymysqlclass MaoyanSpider(object): def __init__(self): self.url="https://maoyan.com/board/4?offset={}" #添加计数变量 self.i=0 #创建两个对象 self.db = py

2020-06-15 23:13:45 485

原创 Top100猫眼电影爬取案例

#保存请求头的列表ua_list=[ "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)", "Mozilla/5.0

2020-06-15 19:51:07 595

原创正则非贪婪模式练习

import rehtml = '''<div class="animal"> <p class="name"> <a title="Tiger"></a> </p> <p class="content"> Two tigers two tigers run fast </p></div><div class="animal"> <p c

2020-06-15 19:44:11 147

原创爬虫基本样式

from urllib import requestfrom urllib import parse#拼接URL地址函数def get_url(word): baseurl="https://www.baidu.com/s?" #编码+拼接 parasm=parse.urlencode({"wd":word})#编码 url=baseurl+parasm+"&usm=3&rsv_idx=2&rsv_page=1"#&usm=3&amp

2020-06-15 19:41:18 356

原创 csv实践

import csvwith open("fengyun.csv","w",newline="",encoding="utf-8") as f: #每写入一个数据，在windows下会默认添加一个空行，加 newline=""就不会出现空行 writer = csv.writer(f)#初始化对象 writer.writerow(["步惊云","超哥哥"]) #写多行 writer.writerows([("呢风","梦"),("孔慈","情霜")])..

2020-06-15 19:36:01 212

qq_46689983的博客